KBS뉴스가 대통령 당선을 예측한다? 빅데이터 선거 (2012.12.20)

By | 2017-12-20

빅데이터 분석, 빅데이터 선거 분석, 빅데이터 대선 분석,

대통령 선거 타임라인 분석, 박근혜, 문재인, 안철수

이 글은  KBS 9시 뉴스 (2001.12.25 ~ 2012.12.18) 11년간 데이터 중에서 대통령 선거가 있는 2002년, 2007년, 2012년 데이터를 주제 색인 엔진으로 분석한 후에 빅데이터(Big Data-복잡계) 엔진으로 처리한 것이다. 특히 주제 색인은 확률적인 방법에 의하여 분류하였기 때문에 통계적으로 주제어를 추출한다.

#. KBS뉴스가 대통령 당선을 예측한다?

과거 대통령 선거 과정에서 KBS9시 뉴스에서 대선 후보의 출현빈도와 실제 당선자가 일치하며 당선자의 득표 비율도 뉴스 점유율과 대체로 일치하는 경향이 있다. 특히 투표 후에 득표율과 비교해보면, KBS9시 뉴스에서 후보자의 뉴스 점유율이 여론조사의 예측보다 훨씬 더 근사치에 가까운 경향이 있다. 따라서 투표 직전에 KBS9시 뉴스를 분석하면 당선자를 미리 예측할 수도 있다.

(이유는 나중에 따로 분석해서 올리겠습니다.)

지난  2012년 12월 12일,

선거 직전 15주간 뉴스를 분석해서 시간(타임라인)에 의한 주제어 변화와 대통령 당선과의 상관 그래프를 올렸는데 이번에도 선거 직전 1~2주 동안 뉴스 점유율이 높았던 박근혜 후보가 당선되었다. 즉 3번의 대통령 선거에서 모두 KBS9시 뉴스 점유율이 높은 후보가 최종적으로 당선되었다.

그때 글은 http://blog.daum.net/big.data 에 있습니다.

#. KBS뉴스 주제어 점유율과 당선자 점유비율 비교

– 두 후보간에 득표수(주제어수)를 합하여 각각 나눈 비율

#. 2002년 점유비율 비교

– 투표 직전 1주일간 뉴스 점유율과 실제 득표 점유 비율이 거의 비슷함

– 투표 직전 15주간 뉴스 점유율과 실제 득표 점유 비율이 거의 비슷함

 

2002년 대통령선거

http://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD_%EC%A0%9C16%EB%8C%80_%EB%8C%80%ED%86%B5%EB%A0%B9_%EC%84%A0%EA%B1%B0

#. 2007년 점유비율 비교

– 투표 직전 15주간 뉴스 점유율과 실제 득표 점유 비율에서 차이가 있음

==> 15주간 뉴스 점유율보다 실제 득표율이 훨씬 높게 나왔음.

==> 당시 이명박 후보의 인기가 높아서 투표 직전 1주간 뉴스 점유율이 70% 이상까지 오른 만큼 1주일 직전 뉴스의 가중치가 실제 득표에 반영된 것 같다. 따라서 마지막 1주일 뉴스의 가중치를 적용하기 위해서 4주간 뉴스 점유율의 평균을 추가로 추가로 계산했음. 마지막 1주 뉴스 점유율이 높아서 평균적으로 보정함.

 

2007년 대통령선거

http://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD_%EC%A0%9C17%EB%8C%80_%EB%8C%80%ED%86%B5%EB%A0%B9_%EC%84%A0%EA%B1%B0

#. 2012년 점유비율 비교

– 투표 직전 15주간 뉴스 점유율은 문재인 후보가 높지만 투표 직전 4주간은 박근혜 후보의 뉴스 점유율이 약간 높았다. 특히 실제 당선에 가장 영양력이 있는 투표 직전 1~2주일은 박근혜 후보가 약간 우세하게 나타났다.

– 실제 투표 결과는 (3.5% 정도) 박근혜 후보가 높았고 그 동안 발표된 여론 조사에 비하면 실제 득표율에 가깝다는 것을 보여 준다.

 

 

#. 2002년 2007년 2012년 뉴스 출현 빈도 목록

2012년
타임라인 박근혜 문재인
1 31 21
2 44 64
3 45 47
4 28 33
5 54 46
6 44 55
7 59 52
8 53 57
9 37 64
10 42 61
11 37 59
12 64 61
13 109 112
14 87 85
15 97 96
합계 831 913
1744 47.65% 52.35%
2007년
타임라인 이명박 정동영
1 58 21
2 29 36
3 14 31
4 34 54
5 36 53
6 47 68
7 102 56
8 102 68
9 82 42
10 112 65
11 143 63
12 173 70
13 145 84
14 141 87
15 190 76
합계 1408 874
2282 61.70% 38.30%
2002년
타임라인 노무현 이회창
1 14 24
2 28 31
3 27 28
4 36 42
5 23 27
6 30 34
7 41 44
8 37 51
9 46 28
10 67 44
11 60 56
12 142 111
13 122 113
14 121 111
15 169 158
합계 963 902
1865 51.64% 48.36%

 

 

#. 투표 직전 KBS뉴스에서 점유율과 당선 관계

KBS9시 뉴스에서 대통령 선거 직전 1~2주 직전 뉴스 점유율이 높은 후보가 당선되었다.

또한 실제 득표율과 비교해 보면, 그 동안 여러 여론조사의 예측보다도  훨씬 근접하는 경향이 있다.

#. 빅데이터 선거와 트위터

미국 선거에서 트위터를 활용하여 빅데이터 관점에서 좋은 결과를 얻었다는 뉴스와 함께 우리나라에서도 트위터를 통하여 선거에 활용하는 사례가 크게 증가했다. 또한 투표 직전에는 문재인 후보의 트윗지수가 매우 높게 나오면서 트위터를 활용한 빅데이터에 대한 관심도 크게 증가했다.

‘문재인 우세’ 트위터 여론지수

http://media.daum.net/economic/others/newsview?newsid=20121212174111306

하지만 한국은 미국과 다른 부분이 있다.

2012년 6월 기준으로 미국은 (전체 인구 대략 3억명 중에서) 1억 4천만명의 트위터 사용자가 있지만 한국은 (전체 인구 대략 5천만명 중에서) 800만명 트위터 사용자로 추측하고 있다. 미국의 경우 전체 인구 대비 46% 정도가 트위터를 사용하는 데 반하여 한국은 전체 인구 대비 16% 정도만 트위터를 사용하고 있다. 만약 한국 선거에서 미국처럼 트위터를 활용하여 선거 전략을 수행했을 경우에는 미국과는 다르게 당선 가능성과의 상관 관계가 높지 않을 수도 있다. 왜냐하면 한국은 트위터를 사용하는 비율이 낮아서 적극적인 트위터 활동가의 의견이 상대적으로 높게 반영되기 때문에 나머지 트위터를 사용하지 않는 사람들의 정치적인 성향은 반영되지 않는다는 점이다. 따라서 트위터의 출현 빈도[트윗수(리트윗)]가 높은 후보가 당선되는 경우도 있지만 반대로 트윗지수는 매우 높아도 당선자는 다를 수도 있다.

미국

한국

전체 인구

3억명

5천만명

트위터 사용자

1억4천만명

8백만명

비율

46%

16%

세계 인구 – 2012기준  미국 3억1천만영  한국 4886만명

http://201480.tistory.com/4

미국 내 트위터 사용자는 약 1억4천만 – 2012년 6월 기준, 한국은 700~800만 예상

http://techit.kr/8350

한국에서 소셜미디어를 활용하여 선거에 승리하려면 적어도 (미국처럼) 전체 인구 대비 절반에 해당하는 2천 5백만명의 사용자를 확보한 소셜미디어로 활용해야만 빅데이터 관점에서 충분한 성과를 얻을 수 있다는 점이다.

#. KBS9시 뉴스를 통하여 빅데이터를 연구하는 이유

다음에 보충해서 올리겠습니다.

소스 뉴스 :  KBS 9시 뉴스 12년치 (2001.01.01 ~ 2012.12.18) http://news.kbs.co.kr/

17대선거: 2002년 1(거의) 1년치

18대선거: 2007년 1(거의) 1년치

19대선거: 2012년 1(거의) 1년치

복잡계 빅데이터(Big Data) 엔진 2012.12.18 버전

주제어 색인 엔진 7.3 (통계적 형태소 분석에 의한 불완전성 포함)

스프레드시트형 표: 구글 문서도구 스프레드시트(http://www.google.co.kr/)

스프레드시트형 차트: 구글 문서도구 스프레드시트

버블차트: (ManyEyes) http://www-958.ibm.com/software/data/cognos/manyeyes/

단어 나무(Word Tree) : http://www-958.ibm.com/software/data/cognos/manyeyes/

단어 구름(Word Cloud) : http://www.wordle.net/

그래프엔진 : ASV_Toolbox_completev1.0

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

Time limit is exhausted. Please reload CAPTCHA.