빅데이터 분석, 빅데이터 선거 분석, 빅데이터 대선 분석,
대통령 선거 타임라인 분석, 박근혜 분석, 문재인 분석, 안철수 분석
이 글은 KBS 9시 뉴스 (2011.12.25 ~ 2012.11.03) 45주간 데이터를 모아서 주제 색인 엔진으로 분석한 후에 빅데이터(Big Data-복잡계) 엔진으로 처리한 것이다. 특히 주제 색인은 확률적인 방법에 의하여 분류하였기 때문에 통계적으로 주제어를 추출한다. 따라서 일부 주제어는 누락될 수도 있으며 아니면 반대로 포함될 수도 있다.
#. 전체적인 트렌드 분석
초반에서 중반까지 [박근혜]후보의 주제어가 상대적으로 매우 높게 출현했지만 후반부에는 (최근 몇 주 사이에는) [문재인] 후보와 [안철수] 후보가 더 많이 출현한다. 또한 전체적으로 각 후보별로 상대적인 출현 빈도에 비례하여 각각의 개별 주제어(연결망 포함)도 비례하는 경향이 있지만 일부 주제어는 각 후보의 정치 철학에 영향을 받아서 다른 후보에 비해서 출현 빈도가 높은 주제어도 있다.
# 타임라인에 의한 각 후보별 빈도
– 배경색이 [연주황]은 각 주별로 최고 빈도를 가리킴
주차 | 박근혜 | 문재인 | 안철수 | |
1 | 8 | 2 | 2 | |
2 | 24 | 3 | 8 | |
3 | 10 | 1 | 9 | |
4 | 28 | 4 | 11 | |
5 | 2 | 0 | 0 | |
6 | 9 | 2 | 5 | |
7 | 12 | 1 | 7 | |
8 | 13 | 2 | 0 | |
9 | 16 | 2 | 2 | |
10 | 10 | 2 | 1 | |
11 | 14 | 7 | 2 | |
12 | 23 | 12 | 3 | |
13 | 23 | 2 | 0 | |
14 | 41 | 2 | 9 | |
15 | 37 | 11 | 9 | |
16 | 37 | 11 | 3 | |
17 | 17 | 5 | 11 | |
18 | 31 | 8 | 0 | |
19 | 16 | 1 | 1 | |
20 | 6 | 4 | 1 | |
21 | 4 | 2 | 1 | |
22 | 2 | 0 | 0 | |
23 | 11 | 10 | 8 | |
24 | 4 | 0 | 3 | |
25 | 2 | 4 | 2 | |
26 | 8 | 8 | 3 | |
27 | 8 | 4 | 3 | |
28 | 8 | 2 | 1 | |
29 | 36 | 10 | 0 | |
30 | 37 | 21 | 9 | |
31 | 26 | 16 | 10 | |
32 | 13 | 1 | 4 | |
33 | 15 | 2 | 0 | |
34 | 11 | 5 | 16 | |
35 | 68 | 16 | 9 | |
36 | 41 | 38 | 11 | |
37 | 29 | 30 | 15 | |
38 | 36 | 17 | 34 | |
39 | 51 | 74 | 68 | |
40 | 39 | 51 | 57 | |
41 | 29 | 31 | 31 | |
42 | 62 | 60 | 66 | |
43 | 48 | 45 | 34 | |
44 | 55 | 56 | 56 | |
45 | 43 | 62 | 64 | |
합 | 1063 | 647 | 589 | |
최고값 | 68 | 74 | 68 | |
평균값 | 23.6 | 14.3 | 13.08 |
# 문재인 후보와 안철수 후보 간에 트렌드 비교
#. 각 대선 후보별 빈도순 상위 30개 주제어 비교
– 빈도가 같을 경우에는 [가나다]순으로 처리
순위 | 박근혜 주제어 | 문재인 주제어 | 안철수 주제어 | |
1 | 박근혜 | 문재인 | 안철수 | |
2 | 후보 | 후보 | 후보 | |
3 | 새누리당 | 민주통합당 | 교수 | |
4 | 대선 | 안철수 | 문재인 | |
5 | 비상대책위원장 | 박근혜 | 무소속 | |
6 | 문재인 | 대선 | 박근혜 | |
7 | 위원장 | 민주당 | 대선 | |
8 | 안철수 | 경선 | 서울대 | |
9 | 경선 | 새누리당 | 단일화 | |
10 | 국민 | 상임고문 | 민주당 | |
11 | 민주통합당 | 손학규 | 새누리당 | |
12 | 대통령 | 단일화 | 정치 | |
13 | 생각 | 정치 | 출마 | |
14 | 선대위원장 | 고문 | 민주통합당 | |
15 | 민주당 | 교수 | 국민 | |
16 | 의원 | 대통령 | 대통령 | |
17 | 대선후보 | 대선후보 | 생각 | |
18 | 한나라당 | 부산 | 야권 | |
19 | 정치 | 강조 | 정책 | |
20 | 말 | 김두관 | 후보측 | |
21 | 행보 | 노무현 | 강조 | |
22 | 강조 | 야권 | 입장 | |
23 | 공천 | 일자리 | 말 | |
24 | 비대위원장 | 지역 | 참여 | |
25 | 교수 | 국민 | 대선후보 | |
26 | 약속 | 무소속 | 발표 | |
27 | 문제 | 연승 | 행보 | |
28 | 사과 | 정세균 | 제시 | |
29 | 입장 | 입장 | 대결 | |
30 | 총선 | 대결 | 경선 |
#. 박근혜 후보 주제어 통계 순위 30위까지
– 30개의 주제어가 전체 출현 주제어의 39.53%를 차지한다.
순위 | 주제어 | 빈도 | 누적빈도 | 누적점유율 | |
1 | 박근혜 | 1063 | 1063 | 10.94 | |
2 | 후보 | 633 | 1696 | 17.45 | |
3 | 새누리당 | 453 | 2149 | 22.11 | |
4 | 대선 | 191 | 2340 | 24.07 | |
5 | 비상대책위원장 | 145 | 2485 | 25.56 | |
6 | 문재인 | 126 | 2611 | 26.86 | |
7 | 위원장 | 120 | 2731 | 28.09 | |
8 | 안철수 | 119 | 2850 | 29.32 | |
9 | 경선 | 85 | 2935 | 30.19 | |
10 | 국민 | 73 | 3008 | 30.94 | |
11 | 민주통합당 | 73 | 3081 | 31.69 | |
12 | 대통령 | 53 | 3134 | 32.24 | |
13 | 생각 | 53 | 3187 | 32.78 | |
14 | 선대위원장 | 51 | 3238 | 33.31 | |
15 | 민주당 | 50 | 3288 | 33.82 | |
16 | 의원 | 50 | 3338 | 34.34 | |
17 | 대선후보 | 47 | 3385 | 34.82 | |
18 | 한나라당 | 43 | 3428 | 35.26 | |
19 | 정치 | 41 | 3469 | 35.69 | |
20 | 말 | 39 | 3508 | 36.09 | |
21 | 행보 | 37 | 3545 | 36.47 | |
22 | 강조 | 35 | 3580 | 36.83 | |
23 | 공천 | 35 | 3615 | 37.19 | |
24 | 비대위원장 | 34 | 3649 | 37.54 | |
25 | 교수 | 33 | 3682 | 37.88 | |
26 | 약속 | 33 | 3715 | 38.22 | |
27 | 문제 | 32 | 3747 | 38.55 | |
28 | 사과 | 32 | 3779 | 38.87 | |
29 | 입장 | 32 | 3811 | 39.2 | |
30 | 총선 | 32 | 3843 | 39.53 |
#. 문재인 후보 주제어 통계 순위 30위까지
– 30개의 주제어가 전체 출현 주제어의 43.62%를 차지한다.
순위 | 주제어 | 빈도 | 누적빈도 | 누적점유율 | |
1 | 문재인 | 647 | 647 | 10.94 | |
2 | 후보 | 577 | 1224 | 20.7 | |
3 | 민주통합당 | 219 | 1443 | 24.4 | |
4 | 안철수 | 138 | 1581 | 26.74 | |
5 | 박근혜 | 131 | 1712 | 28.95 | |
6 | 대선 | 124 | 1836 | 31.05 | |
7 | 민주당 | 82 | 1918 | 32.44 | |
8 | 경선 | 71 | 1989 | 33.64 | |
9 | 새누리당 | 56 | 2045 | 34.58 | |
10 | 상임고문 | 51 | 2096 | 35.45 | |
11 | 손학규 | 38 | 2134 | 36.09 | |
12 | 단일화 | 37 | 2171 | 36.72 | |
13 | 정치 | 35 | 2206 | 37.31 | |
14 | 고문 | 31 | 2237 | 37.83 | |
15 | 교수 | 28 | 2265 | 38.31 | |
16 | 대통령 | 27 | 2292 | 38.76 | |
17 | 대선후보 | 26 | 2318 | 39.2 | |
18 | 부산 | 25 | 2343 | 39.62 | |
19 | 강조 | 24 | 2367 | 40.03 | |
20 | 김두관 | 24 | 2391 | 40.44 | |
21 | 노무현 | 21 | 2412 | 40.79 | |
22 | 야권 | 21 | 2433 | 41.15 | |
23 | 일자리 | 20 | 2453 | 41.48 | |
24 | 지역 | 20 | 2473 | 41.82 | |
25 | 국민 | 19 | 2492 | 42.14 | |
26 | 무소속 | 18 | 2510 | 42.45 | |
27 | 연승 | 18 | 2528 | 42.75 | |
28 | 정세균 | 18 | 2546 | 43.06 | |
29 | 입장 | 17 | 2563 | 43.35 | |
30 | 대결 | 16 | 2579 | 43.62 |
#. 안철수 후보 주제어 통계 순위 30위까지
– 30개의 주제어가 전체 출현 주제어의 43.63%를 차지한다.
순위 | 주제어 | 빈도 | 누적빈도 | 누적점유율 | |
1 | 안철수 | 589 | 589 | 10.95 | |
2 | 후보 | 405 | 994 | 18.49 | |
3 | 교수 | 182 | 1176 | 21.87 | |
4 | 문재인 | 140 | 1316 | 24.47 | |
5 | 무소속 | 132 | 1448 | 26.93 | |
6 | 박근혜 | 121 | 1569 | 29.18 | |
7 | 대선 | 111 | 1680 | 31.24 | |
8 | 서울대 | 74 | 1754 | 32.62 | |
9 | 단일화 | 51 | 1805 | 33.57 | |
10 | 민주당 | 46 | 1851 | 34.42 | |
11 | 새누리당 | 46 | 1897 | 35.28 | |
12 | 정치 | 44 | 1941 | 36.1 | |
13 | 출마 | 44 | 1985 | 36.92 | |
14 | 민주통합당 | 32 | 2017 | 37.51 | |
15 | 국민 | 31 | 2048 | 38.09 | |
16 | 대통령 | 30 | 2078 | 38.65 | |
17 | 생각 | 28 | 2106 | 39.17 | |
18 | 야권 | 26 | 2132 | 39.65 | |
19 | 정책 | 26 | 2158 | 40.13 | |
20 | 후보측 | 21 | 2179 | 40.52 | |
21 | 강조 | 20 | 2199 | 40.9 | |
22 | 입장 | 20 | 2219 | 41.27 | |
23 | 말 | 18 | 2237 | 41.6 | |
24 | 참여 | 18 | 2255 | 41.94 | |
25 | 대선후보 | 17 | 2272 | 42.25 | |
26 | 발표 | 16 | 2288 | 42.55 | |
27 | 행보 | 16 | 2304 | 42.85 | |
28 | 제시 | 15 | 2319 | 43.13 | |
29 | 대결 | 14 | 2333 | 43.39 | |
30 | 경선 | 13 | 2346 | 43.63 |
# 전제적인 주제어 연결망
여러 가지 이유로 [박근혜] 후보의 뉴스 출현 빈도가 상대적으로 매우 높아서 전체적으로 [박근혜] 후보 영역에서 빈도가 높았다. 그런데 각 후보가 추구하는 목표와 성향에 따라서 상대적인 특징을 보여주는 주제어가 있다.
# 주제어 [NLL] 연결망 비교
# [경제민주화] 주제어 연결망 비교
세 후보 모두 [일자리]를 공통적으로 중심 주제어로 연결되었지만 [박근혜]후보는 [성장]과 [선순환]이 [시너지]로 연결된 것에 반하여 [안철수] 후보는 [경제, 혁신]이 [선순환]으로 가까이 나타난다. [문재인] 후보는 [인간]과 [공정경쟁, 모델]이 그룹을 형성하고, [안철수] 후보는 [재벌개혁]과 [약자], [균등, 기회]가 그룹을 이루면서 고유한 주제어 연결 특성을 보여준다. 또한 [박근혜] 후보는 [중소기업]과 [약자]가 연결망으로 나타났다면 [문재인] 후보는 [중소기업, 재래시장, 골목시장, 자영업자]가 모여서 [경제정책, 근간]이라는 주제어와 그룹을 형성했다.
특히 뉴스 빈도가 높아서 전체적으로 다른 후보보다 높은 빈도를 보여주는 [박근혜] 후보의 [경제민주화]는 다른 후보와 빈도수 차이가 상대적으로 크지 않다.
성장, 선순환, 시너지 중소기업, 약자 |
인간, 공정경쟁, 모델 중소기업, 재래시장, 골목시장, 자영업자, 경제정책, 근간 |
경제, 혁신, 선순환 재벌개혁, 약자, 균등, 기회 |
#. [공약] 주제어 연결망 비교
[박근혜] 후보는 뉴스 빈도가 높은 만큼 비례해서 [공약] 관련 주제어가 압도적으로 많다.
창조경제, 국민행복, 성장 |
|
동일임금, 동일가치노동 |
#. [단일화] 주제어 연결망 비교
|
|
#. [복지] 주제어 연결망 비교
경제민주화, 일자리, |
일자리, 경제민주화 |
경제민주화, |
#. [정책] 주제어 연결망 비교
[박근혜] 후보는 뉴스 빈도가 높은 만큼 비례해서 [정책] 관련 주제어가 압도적으로 많다.
|
|
|
#. [행복] 주제어 연결망 비교
개인, 복지, 일자리 |
|
노동자, 노동연대센터 |
#. [혁신] 주제어 연결망 비교
뉴스 빈도가 높아서 전체적으로 다른 후보보다 높은 빈도를 보여주는 [박근혜] 후보의 [혁신]은 다른 후보에 비하여 주제어 연결망이 상대적으로 적은 편이다. 이에 반하여 [안철수] 후보의 경우에는 다른 후보에 비하여 월등히 높은 주제어 연결망을 보여준다.
성장, 일자리, 선순환 |
정치, 정책, |
강국, 만들기 경제민주화, 경제, 정치, 정책, 정당 정보통신, 슈미트, 구글, 지식정보, 이노베이션 융합과학, 전문가 , |
#. 주제어 연결망 비교
[박근혜] 후보는 상대적으로 누적 빈도가 높아서 [주제어 연결망] 이 많기 때문에 레벨을 높여야만 특징적인 주제어 연결망이 포착하기 쉽다. 그래서 [박근혜] 후보는 레벨50, 레벨60 수준에서 출력했다.
—- 아래와 같은 기술적 도구의 지원으로 작성한 것임 —
소스 뉴스 : KBS 9시 뉴스 (2011.12.25 ~ 2012.11.03) 45주간 http://news.kbs.co.kr/
복잡계 빅데이터(Big Data) 엔진 2012.11.06 버전
주제어 색인 엔진 7.0 (통계적 형태소 분석에 의한 불완전성 포함)
스프레드시트형 표: 구글 문서도구 스프레드시트(http://www.google.co.kr/)
스프레드시트형 차트: 구글 문서도구 스프레드시트