데이터 분석 목표
- "스마트 시티"와 관련된 키워드를 알아보기
- 키워드를 통해 "스마트 시티"와 관련된 가치 도출하기
데이터 수집
1. 빅카인즈 접속
빅카인즈 : 한국언론진흥재단에서 운영하는 빅데이터 분석 시스템
2. 키워드 검색 및 검색 상세 설정
6개월 동안 수집된 스마트시티 기사를 검색
3. 검색 결과 데이터 저장
Step 03. 분석 결과 및 시각화 클릭
하단에 다운로드 클릭
4. 저장 완료
5. 데이터 필터
키워드 영역만 가지고 데이터 분석을 할 예정이므로 나머지 데이터를 삭제해준다.
간단하게 키워드만 남긴 스프레드시트
키워드들은 "빅카인즈"에서 자체적으로 명사 만 수집한 결과물
빠른 실습을 위해서 교수님이 제공 해주신 단어사전 을 이용하여 키워드 필터
단어 사전 : 예외처리 할 단어들을 모은 파일
EX > 블록체인 같은 경우 명사 추출 프로그램에서 블록체인의 "인" 을 조사로 받아들여 "블록체" 만 명사로 추출하게 된다.
Ctrl + H
를 통해 찾기 및 바꾸기 툴을 연다.
위 단어사전 파일에 명시된 "word" 들을 "Original Word" 로 바꾼다.
단, 각 word 양쪽에 "," 를 각각 붙여준다. 붙여주지 않으면 "블록체인"이 "블록체인인"으로 바뀔 수 있다.
키워드를 대체하는 것 뿐만 아니라 분석에 필요없는 키워드들을 지워준다.
시험공부를 해야하기 때문에 1월~12월을 삭제하는 것만 했다...
교수님이 빅데이터 분석은 "노가다의 연속" 이라고 하셨다...
마지막으로 키워드를 각각의 셀로 분할 할 것이다.
키워드들은 모두 A열에 있는 것이기 때문에 A열을 선택 해주고 텍스트 나누기 를 클릭한다.
6. 데이터 분석 툴(Gephi) 실행
새 프로젝트 생성
Data Laboratory 클릭
Import Spreadsheet 클릭
Spreadsheet 열기
Time Intervals : 노드 간에 순차가 존재 할 때 설정함
우리가 하려는 키워드 분석은 방향성이 없으므로 디폴트 설정값인mixed
에서Undirected
로 바꿔준다.시각화
Spreadsheet가 잘 열렸다면 Overview 탭으로 넘어간다.
잘못된것이 아니다... 저 숯검댕이는 모든 노드와 엣지가 겹쳐져서 만들어진 것이다....
통계 툴
우리가 간단하게 해볼 것은 3가지가 있다.
- Average Degree : 한 노드가 평균적으로 갖는 엣지 수
- Modularity : 노드가 특정 군집과는 가깝고 그 밖의 군집과는 거리가 있는 정도
- Eigenvector Centrality : 해당 노드와 연결된 다른 노드들의 개수 뿐만 아니라 다른 노드들의 중요도 또한 반영하여 가중치를 둔 것
- Average Degree : 한 노드가 평균적으로 갖는 엣지 수
필터
Degree Range : 1500 ~ 6308
수치를 입력하고Enter
키를 꼭 쳐야한다. 그리고Filter
클릭!
!! 주의점 : 모든 통계 툴은 필터를 거치지 않은 100% 데이터를 가지고 통계를 해야한다!!
'KoreaTech' 카테고리의 다른 글
[인터네트워킹] 2. 기본 네트워크 구축 (0) | 2019.09.12 |
---|---|
[인터네트워킹] 1. 인터네트워킹 개요 (0) | 2019.09.11 |
[IOT프로그래밍] Chapter 2 : Introduction to HyperText Markup Language : PART 1 (0) | 2019.09.10 |
[데이터분석개론] Gephi로 데이터 분석 및 시각화 실습 (0) | 2019.05.03 |
[데이터분석개론] Gephi 설치, 메모리 설정, 업데이트 (0) | 2019.04.19 |