KoreaTech

[데이터분석개론] Gephi 실습하기 - 데이터 수집과 시각화

졸려질려 2019. 4. 26. 16:06
반응형

데이터 분석 목표

  • "스마트 시티"와 관련된 키워드를 알아보기
  • 키워드를 통해 "스마트 시티"와 관련된 가치 도출하기

데이터 수집

1. 빅카인즈 접속

빅카인즈 : 한국언론진흥재단에서 운영하는 빅데이터 분석 시스템

2. 키워드 검색 및 검색 상세 설정

6개월 동안 수집된 스마트시티 기사를 검색

3. 검색 결과 데이터 저장

Step 03. 분석 결과 및 시각화 클릭

하단에 다운로드 클릭

4. 저장 완료

5. 데이터 필터

키워드 영역만 가지고 데이터 분석을 할 예정이므로 나머지 데이터를 삭제해준다.

간단하게 키워드만 남긴 스프레드시트
키워드들은 "빅카인즈"에서 자체적으로 명사 만 수집한 결과물

빠른 실습을 위해서 교수님이 제공 해주신 단어사전 을 이용하여 키워드 필터
단어 사전 : 예외처리 할 단어들을 모은 파일
EX > 블록체인 같은 경우 명사 추출 프로그램에서 블록체인의 "인" 을 조사로 받아들여 "블록체" 만 명사로 추출하게 된다.

Ctrl + H 를 통해 찾기 및 바꾸기 툴을 연다.
위 단어사전 파일에 명시된 "word" 들을 "Original Word" 로 바꾼다.
단, 각 word 양쪽에 "," 를 각각 붙여준다. 붙여주지 않으면 "블록체인"이 "블록체인인"으로 바뀔 수 있다.

키워드를 대체하는 것 뿐만 아니라 분석에 필요없는 키워드들을 지워준다.

시험공부를 해야하기 때문에 1월~12월을 삭제하는 것만 했다...
교수님이 빅데이터 분석은 "노가다의 연속" 이라고 하셨다...

마지막으로 키워드를 각각의 셀로 분할 할 것이다.
키워드들은 모두 A열에 있는 것이기 때문에 A열을 선택 해주고 텍스트 나누기 를 클릭한다.



6. 데이터 분석 툴(Gephi) 실행

  1. 새 프로젝트 생성

  2. Data Laboratory 클릭

  3. Import Spreadsheet 클릭

  4. Spreadsheet 열기



    Time Intervals : 노드 간에 순차가 존재 할 때 설정함

    우리가 하려는 키워드 분석은 방향성이 없으므로 디폴트 설정값인 mixed에서 Undirected 로 바꿔준다.

  5. 시각화

    Spreadsheet가 잘 열렸다면 Overview 탭으로 넘어간다.

    잘못된것이 아니다... 저 숯검댕이는 모든 노드와 엣지가 겹쳐져서 만들어진 것이다....

  • 통계 툴

    우리가 간단하게 해볼 것은 3가지가 있다.

    1. Average Degree : 한 노드가 평균적으로 갖는 엣지 수
    2. Modularity : 노드가 특정 군집과는 가깝고 그 밖의 군집과는 거리가 있는 정도
    3. Eigenvector Centrality : 해당 노드와 연결된 다른 노드들의 개수 뿐만 아니라 다른 노드들의 중요도 또한 반영하여 가중치를 둔 것
  • 필터


    Degree Range : 1500 ~ 6308

    수치를 입력하고 Enter키를 꼭 쳐야한다. 그리고 Filter 클릭!

!! 주의점 : 모든 통계 툴은 필터를 거치지 않은 100% 데이터를 가지고 통계를 해야한다!!

반응형