빅데이터 분석, 빅데이터 선거 분석, 빅데이터 대선 분석,
대통령 선거 타임라인 분석, 박근혜 분석, 문재인 분석, 안철수 분석
이 글은 KBS 9시 뉴스 (2011.12.25 ~ 2012.11.03) 45주간 데이터를 모아서 주제 색인 엔진으로 분석한 후에 빅데이터(Big Data-복잡계) 엔진으로 처리한 것이다. 특히 주제 색인은 확률적인 방법에 의하여 분류하였기 때문에 통계적으로 주제어를 추출한다. 따라서 일부 주제어는 누락될 수도 있으며 아니면 반대로 포함될 수도 있다.
#. 박근혜 후보 주제어 통계 순위 36위까지
– 36개의 주제어가 전체 출현 주제어의 41.31%를 차지한다.
순위 | 주제어 | 빈도 | |
1 | 박근혜 | 1063 | |
2 | 후보 | 633 | |
3 | 새누리당 | 453 | |
4 | 대선 | 191 | |
5 | 비상대책위원장 | 145 | |
6 | 문재인 | 126 | |
7 | 위원장 | 120 | |
8 | 안철수 | 119 | |
9 | 경선 | 85 | |
10 | 국민 | 73 | |
11 | 민주통합당 | 73 | |
12 | 대통령 | 53 | |
13 | 생각 | 53 | |
14 | 선대위원장 | 51 | |
15 | 민주당 | 50 | |
16 | 의원 | 50 | |
17 | 대선후보 | 47 | |
18 | 한나라당 | 43 | |
19 | 정치 | 41 | |
20 | 말 | 39 | |
21 | 행보 | 37 | |
22 | 강조 | 35 | |
23 | 공천 | 35 | |
24 | 비대위원장 | 34 | |
25 | 교수 | 33 | |
26 | 약속 | 33 | |
27 | 문제 | 32 | |
28 | 사과 | 32 | |
29 | 입장 | 32 | |
30 | 총선 | 32 | |
31 | 대표 | 31 | |
32 | 방문 | 30 | |
33 | 정책 | 30 | |
34 | 부산 | 28 | |
35 | 야당 | 28 | |
36 | 비판 | 26 |
#. 문재인 후보 주제어 통계 순위 36위까지
– 36개의 주제어가 전체 출현 주제어의 45.19%를 차지한다.
순위 | 주제어 | 빈도 | |
1 | 문재인 | 647 | |
2 | 후보 | 577 | |
3 | 민주통합당 | 219 | |
4 | 안철수 | 138 | |
5 | 박근혜 | 131 | |
6 | 대선 | 124 | |
7 | 민주당 | 82 | |
8 | 경선 | 71 | |
9 | 새누리당 | 56 | |
10 | 상임고문 | 51 | |
11 | 손학규 | 38 | |
12 | 단일화 | 37 | |
13 | 정치 | 35 | |
14 | 고문 | 31 | |
15 | 교수 | 28 | |
16 | 대통령 | 27 | |
17 | 대선후보 | 26 | |
18 | 부산 | 25 | |
19 | 강조 | 24 | |
20 | 김두관 | 24 | |
21 | 노무현 | 21 | |
22 | 야권 | 21 | |
23 | 일자리 | 20 | |
24 | 지역 | 20 | |
25 | 국민 | 19 | |
26 | 무소속 | 18 | |
27 | 연승 | 18 | |
28 | 정세균 | 18 | |
29 | 입장 | 17 | |
30 | 대결 | 16 | |
31 | 말 | 16 | |
32 | 의원 | 16 | |
33 | 정책 | 16 | |
34 | 참석 | 15 | |
35 | 출마 | 15 | |
36 | 후보측 | 15 |
#. 안철수 후보 주제어 통계 순위 35위까지
– 35개의 주제어가 전체 출현 주제어의 44.84%를 차지한다.
순위 | 주제어 | 빈도 | |
1 | 안철수 | 589 | |
2 | 후보 | 405 | |
3 | 교수 | 182 | |
4 | 문재인 | 140 | |
5 | 무소속 | 132 | |
6 | 박근혜 | 121 | |
7 | 대선 | 111 | |
8 | 서울대 | 74 | |
9 | 단일화 | 51 | |
10 | 민주당 | 46 | |
11 | 새누리당 | 46 | |
12 | 정치 | 44 | |
13 | 출마 | 44 | |
14 | 민주통합당 | 32 | |
15 | 국민 | 31 | |
16 | 대통령 | 30 | |
17 | 생각 | 28 | |
18 | 야권 | 26 | |
19 | 정책 | 26 | |
20 | 후보측 | 21 | |
21 | 강조 | 20 | |
22 | 입장 | 20 | |
23 | 말 | 18 | |
24 | 참여 | 18 | |
25 | 대선후보 | 17 | |
26 | 발표 | 16 | |
27 | 행보 | 16 | |
28 | 제시 | 15 | |
29 | 대결 | 14 | |
30 | 경선 | 13 | |
31 | 맞대결 | 13 | |
32 | 방문 | 13 | |
33 | 여부 | 13 | |
34 | 정당 | 13 | |
35 | 퍼센트 | 13 |
—- 아래와 같은 기술적 도구의 지원으로 작성한 것임 —
소스 뉴스 : KBS 9시 뉴스 (2011.12.25 ~ 2012.11.03) 45주간 http://news.kbs.co.kr/
복잡계 빅데이터(Big Data) 엔진 2012.11.06 버전
주제어 색인 엔진 7.0 (통계적 형태소 분석에 의한 불완전성 포함)
스프레드시트형 표: 구글 문서도구 스프레드시트(http://www.google.co.kr/)
스프레드시트형 차트: 구글 문서도구 스프레드시트
버블차트: (ManyEyes) http://www-958.ibm.com/software/data/cognos/manyeyes/
단어 구름(Word Cloud) : http://www.wordle.net/