데이터 사이언스/Statistics

영화 "더플랜" 을 통해 배우는 통계검증의 심각한 오류

라니체 2022. 7. 26. 21:23
728x90

학부때 썼던 글인데 다시 끄집어내본다...

통계학에서 이런 오류는 정말 흔한것같다.

 

=======================================================================================

본인은 특정 정당을 지지하여 이글을 쓴것은 아님을 미리 밝힙니다.

 

최근에 개봉한 영화중에

통계학을 다룬 영화가 있어서 보게 되었다.

그 영화의 제목은 "더 플랜"

흔치 않은 소재인거 같은대.. 해당 전공자로써 반가웠다.

주제 또한 2012 대선에 관한것이라서 흥미진진!!

사실 여기에 나오는 통계적인 해석에 대해서는 아직 까지 만장일치의 의견이 나오지 않고있다.

 

나는 다만...

장황하지 않고 짧고 간결하게 내 의견을 정리해 보고자 한다.

영화를 보지 않으신 분들도 또는 통계학을 전공하지 않으신 분들도 이해하기 쉽게 적어보고자 한다.

통계적 내용이 들어가지만, 잘생각해보면, 사실은 내용이 그렇게 어렵지 않을것이다.

 

 

이 영화에서 핵심 화두는

"K=1 이다" 라는 가설이다.

그렇다면 여기서 K는 뭐냐..?  영화에 나오는 캐나다 통계학 박사님은 확률변수 K를 기가막히게 참신한 방법으로 소개한다.

우선 투표지들이 어떻게 세어지는지 부터 간단히 얘기를 하자.

선거날 약 3000만개의 투표지들은 투표분류기라는 기계를 통해서 맨처음에 분류가 된다. 그후에 사람들이 기계에서 미분류된 투표지들을 세게 된다.

이 작업은 각 지역의 선거구에서 똑같이 실행된다. 문제를 간단히 만들기 위해서, 후보자는 두 명만 있다고 생각하자.

 

하나의 선거구에서 기계로 분류된 투표지들 중 1번후보를 뽑은 투표지수 / 2번후보를 뽑은 투표지수 = p1 이라 하자.

그 선거구에서 기계로 분류되지 못한 투표지들 중 1번 후보를 뽑은 투표지수 / 2번후보를 뽑은 투표지수 = p2 이라 하자.

 

이때, p1/p2 = K 라는 확률변수로 둔것이다.

왜 확률 변수냐?

K는 선거구마다 다른값이 나올것이며, 우리가 예측할수 없는 어떤 확률분포로 존재하기 때문이다.

 

문제는 여기서 모든 K들이 모인 분포를 생각해보는것에서 시작한다.

캐나다 통계학 박사님의 의견으로는 K 는 1을 중심으로 분산이 매우 작은 분포를 띨것이라고 얘기한다.

 

여기에 대한 설명은... 통계학적인 지식을 다소 필요로 하지만, 간단히 얘기하면 이런것이다.

어항에 검은 바둑돌 70개와 흰 바둑돌 30개가 떠다닌 다고 하자. 이때, 이 바둑돌은 마구마구 섞여있는 상태이다.

만약 이때, 우리가 임의로 10개의 바둑돌을 뽑는다면, 상식적으로 검은바둑돌 7개와 흰바둑돌 3개가 나올 확률이

제일 높을것이다.

자. 여기서 검은바둑돌 7000개와 흰바둑돌 3000개로 늘려서 같은 시행을 했다고 하자.

이때 우리가 임의로 1000개의 바둑돌을 뽑는다면, 마찬가지로 검은바둑돌 700개와 흰바둑돌 300개가 나올 확률이

제일 높을것이다. 이때 검은바둑돌 700개와 흰바둑돌 300개가 나올 확률이 매우 높아서, 다른 경우의수 가 나올 확률은

상대적으로 매우 작아지게 된다.

만약 700만개의 검은바둑돌과 300만개의 흰바둑돌이 엄청나게 큰 어항에 있다고 가정하자.

이때 100만개의 바둑돌을 임의로 뽑을때, 확률분포 식을 직접 계산해보면 대략적으로

(여기서는 초기하분포의 이항분포 근사, 이항분포의 정규분포 근사를 사용하였음)

 

P(70만-3 < X < 70만+3 ) = 1

이 된다. 즉 사실상 100만개를 뽑으면 70만개가 무조건 나온다는 뜻이 된다.

즉 1000만개 중에 700만개의 검은돌이 있었다면 그 중 100만개를 추출한거에도 같은 비율인 70% 즉, 70만개의 검은돌이 나온다는

해설이다.

즉, 1000만명의 유권자 중에 700만명이 1번후보를 뽑았다고 했을때, 분류기계에 별다른 조작이 없었다면, 미분류 투표용지 100만장 중에서도 70만장은 1번후보를 가리킬 것이다 라는 것에서 시작한다. 그렇게 되면 K=1 또는 1과 매우 근사한 값들만 가지게 된다.

 

 

즉 K=1 을 중심으로 매우 몰려있는 분포가 될것이기 때문에, K=1.5가 많이나오는것은 정상적이지 않은 경우라는 것이다.

하지만, 과연 정상적이지 않은 것일까? 통계학에서 가장 무서운것이, 숫자를 이용한 과감한 판단이다.

즉 현실(사회)을 반영하지 않은 채 식으로만 내리는 판단이 무서운것이다.

결론부터 얘기하자면 , K=1.5 가 충분히 현실에서는 나올수 있다는 것이다. (기계의 조작이 없어도)

다음부터의 얘기는 오로지 통계자료에 기반해서 내가 계산한 시뮬레이션이다.

 

 

 

여기서 부터는 내가 직접 계산한 결과를 나열하겠다.

여러 통계자료들을 참고하고,

60세이상 연령대인 분들의 수(X) 와 미분류투표수(Y) 의 회귀분석식을 분석한 결과,

약 100명의 60세 이상 연령대 분들이 투표를 했다면 그중 16명이 미분류투표를 내버린다고 한다.

즉, 연세가 많으셔서 표기오류를 낸다는 것이다.

 

2012년 대선의 결과

박근혜 후보가 51.6%

문재인 후보가 48%

의 지지율로 결론이 났다.

 

편의상 전체 투표한 사람의 수를 1000명 이라고 하자.

이중에 516명이 박근혜 후보를 투표했고,

이중에 480명이 문재인 후보를 투표했다.

 

2012대선 당시 60세이상의 투표 인구/전체 투표한 인구    20% 정도가 된다.

따라서 1000명의 투표자 중 200명은 60세이상의 투표인구(이하 노인) 이다.

통계자료에 따르면 당시 노인의 70%는 박근혜 후보를 지지했다.

따라서 200명의 70% 즉, 노인 140명은 박근혜 후보를 지지했으며, 60명은 문재인 후보를 지지했다.

위에 회귀분석 결과에 따라,

박근혜 후보 투표자 중에 140*0.16 = 22.4 명은 미분류될투표용지를 냈으며

문재인 후보 투표자 중에 60*0.16=9.6명은 미분류될 투표용지를 냈다.

 

2012 대선 통계자료에 따르면,

4%의 미분류 투표용지가 발생했는데 이중 3%의 미분류 투표용지는 사람의 기표 실수에 의한 것이었고,

1%만이 사람이 올바르게 기표했는데도 기계가 분류하지 못한것이었다.

즉, 1000명이 전체 투표한 사람의 수라 한다면, 30표가 사람의 실수에 의해 미분류 된것이라는 것이다.

이 수치는 위에 22.4+9.6=32 라는 수치와 매우 근사한다. 즉 60대 이상의 노인이 대부분의 기표실수를 냈다는 것이다.

그리고 나머지 1% 즉 10표는 기계가 실수해서 미분류한것이다.

 

 

이제 이런 상태에서 기계조작이 없다고 가정하고 K를 구해보자.

 

미분류된 박근혜후보 투표용지수 : 22.4(사람의실수에 의한) + 5 (기계의실수에 의한) = 27.4

미분류된 문재인 후보 투표용지수 : 9.6(사람의실수에 의한) + 5  (기계의실수에 의한) = 14.6

 

기계가 분류한 박근혜후보 투표용지수: 516-27.4 =488.6

기계가 분류한 문재인후보 투표용지수: 480-14.6= 465.4

 

(27.4/14.6)/(488.6/465.4) =  1.7876

 

 

즉, 이걸로 무얼 알수 있는가?

내가 이 계산과정에서 사용한것은

오로지 그당시 인구에 대한 통계자료, 즉 팩트 라는 정보만 가지고

분석을 해본것이다.

 

기계의 조작이 없다고 가정했는데도

충분히 모집단의 K= 1.7876 이 나올수 있다. (물론 여기선 1000명을 모집단으로 했기 때문에, 실제 3000만명의 모집단에

정확한 비율을 적용시킨다면 약간의 차이는 있을수 있다. )

 

하지만, 여기서 중요한것은

노인에 대한 정보가 주어짐으로써

즉 그당시 노인의 상당수가 박근혜 지지층였다는 정보가 주어짐으로써

K=1.5 라는게 전혀 이상하지 않게 될수 있다는것을 보인것이다.

 

 

결론은

 

기계조작에 대한 증거가 확실하지 않다.

아니 정확히 얘기하면 조작의 가능성은 거의 없을수도 있다.

 

 

 

(부록) 통계자료의 출처는 각자 검색을 통해 확인하는것을 양해 부탁드립니다.... 

 

 

==================================================================================================================================================

 

나는 영화 "더플랜" 을 보면서

이러한 통계적인 오류는 정말 조심해야 겠다는 것을 또 한번 느끼고...

통계를 이용해서 어떠한 결론을 내릴때는, 여러 통계전문가들과 상의를 해서

과연 이게 타당한건지 서로 논쟁끝에 결론에 다다라야 한다고 절실히 깨달았다.