데이터 사이언스/Statistics

[통계학] 베이지안적 사고와 빈도주의적 사고

라니체 2022. 6. 14. 23:17
728x90

우리는 어떤 현상이 발생했을때, 그 내면에 깔려있는 시스템이 존재한다고 생각한다.

통계학에서 그 시스템은 바로 확률 분포가 된다.

즉 우리눈에 보이는 데이터가 우리 눈에 보이지 않는 어떤 시스템에 의해서

발현(realization)되었다고 본다.

그리고 그 시스템, 즉 분포는 그 분포를 결정짓는 모수(parameter)가 있다고 가정하며

그 모수를 추정하는 방법에는 베이지안 방법(bayesian method)빈도주의자 방법(frequentist)이 있다.

사실 두가지 방법 모두 나름의 합리적인 근거를 가지고 있기 때문에 어느 방법이 더 옳다 라고 판단할 수는 없다.

오늘은 이 두가지 방법이 깔고 있는 그 근거를 살펴보고자 한다.

설명을 쉽게 하기 위해서 예시를 들어보겠다.

어떤 남자가 인형뽑기를 100번 했는데 20번 성공했다고 치자.

이때, 이 정보를 바탕으로 이 사람의 인형뽑기가 성공할 확률을 추정해보면 어떻게 될까?

먼저, 이 문제를 풀기 위해서는 우리는 "최소한의 가정"을 해야한다.

그 최소한의 가정이란 바로 분포에 대한 가정이다. 즉, 적어도 이 현상이 어떤 시스템(분포)에서 발생되었을지에 대한 가정은 필요하다. 우리는 위 현상에 대해서 다소 rough하게 가정을 한다면, 인형 뽑기의 각 시행이 서로 독립인 베르누이 시행이라고 가정해볼 수 있다. 즉, 각 시행마다 확률은 고정되어 있으며 시행끼리는 서로 영향을 미치지 않는다고 가정해보는 것이다. 그러면 위 인형뽑기의 결과가 이항분포(binomial distribution)으로 부터 나왔다고 어렵지 않게 가정할 수 있다. 즉, 인형뽑기의 결과가 Bin(100, p) 로 부터 나왔다고 생각해 볼 수 있다.

그럼 이제 우리는 모수 p를 구하는 문제로 압축된다. 각 시행에서 성공의 확률인 p를 어떻게 추정해볼 수 있을까? 가장 먼저 떠오르는 생각은 성공의 횟수를 전체 횟수로 나눈 값인 20/100 = 0.2 를 p의 값으로 추정하는 것일거다. 그리고 사실 여기서 이렇게 구한 0.2는 최대가능도 추정치(Maximum Likelihood Estimate)가 된다.

이와 같이 과거에 경험적으로 나타났었던 데이터의 기록에 의존하여 모수를 추정해내는 방식을 빈도주의적 방식이라고 한다. 빈도주의적 방식은 과거 기록(데이터)이 있어야지만 모수를 추정해낼 수 있다.

그에 반해, 베이지안 방법은 모수에 대한 자신의 생각을 분포로 정의한다. 그 생각에는 두가지 종류가 있는데 첫번째로는 데이터를 보기 전 모수에 대한 자신의 생각인 prior 와 데이터를 보고 난 후 수정된 자신의 생각인 posterior가 있다. 즉, 데이터를 보기 전에 모수에 대해 자신이 갖고 있던 생각을 분포로 나타낸 것을 사전분포 (prior distribution) 이라고 하며, 데이터를 보고 난 후 데이터가 갖고 있는 정보인 likelihood가 자신의 prior에 반영되어 수정된 자신의 생각에 대한 분포를 사후분포 (posterior distribution)이라 한다.

만약 위의 예제에서 우리가 저 인형뽑기를 한 남자의 지인이라서 저 남자가 평상시 인형뽑기했을 때 성공률이 50%는 된다고 생각하고 있었다고 치자. 그런데 최근에 직접 관찰해서 보니 100번 중에 20번 성공한 사실을 알게되었다고 치자. 그러면 "남자의 인형뽑기 성공률은 50%는 될것이다" 라는 우리의 생각이 다소 수정될 것이다.

즉, MLE인 20%쪽에 가깝게 수정될 것이다. 그리고 그 수정되는 정도는 우리가 "남자의 인형뽑기 성공률은 50%는 될것이다" 라는 우리의 생각이 얼마나 확고했느냐에 달렸을 것이다. 즉, 그 확고한 정도가 컸다면 사전 분포가 많이 움직이지는 않을 것이고, 그 확고한 정도가 작았다면 좀 더 MLE쪽으로 가까워지는 것이다. 그리고 최종 추정치는 그 분포(사후분포)의 mode(최빈값)으로 보통 정하게 된다.

요약하자면 빈도주의적 사고와 베이지안적 사고 모두 주어진 데이터가 발생된 어떤 시스템(분포)가

정해져 있다고 생각하며, 그 분포의 고정되어있는 모수(우리는 모르지만)를 추정하고자 한다.

다만, 빈도주의적 사고는 그 모수를 추정할 때, 주어진 데이터들이 모수로부터 나올 확률을 역으로 고려하여 모수를 통계적(빈도적)으로 결정하고자 하며(엄밀하게 얘기하면 이는 가능도(Likelihood) 방법을 말한다), 베이지안적 사고는 데이터가 주는 정보와 자신의 사견 또는 편견을 결합하여 모수를 결정하고자 한다. 그리고 위의 예시에서 만약 자신의 사견을 중립적으로 준다면, 즉 p에 대한 사전 분포를 0과 1사이의 균일분포(uniform)으로 준다면 "나는 인형뽑기의 성공률이 어느것이라고는 딱 잘라서 말하진 못하겠어" 라는 뜻이 되며 그 결과로 MLE인 0.2 와 똑같은 결과를 준다.

그리고 한가지 다행인것은, 많은 경우에 데이터의 개수가 많아지면 데이터가 가지고 있는 정보(likelihood)의 비중이 자신의 사견(prior)에 비해 커지므로 베이지안적으로 판단한 결과가 빈도주의적으로 판단한 결과로 수렴하게 된다.

하지만 데이터가 적을 경우에는 때로는 베이지안적 방법이 유리할 수도 있는데, 그 이유는 적은 데이터가 편향된 정보를 제공하는 것을 prior로 어느정도 잡아줄 수 있기 때문이다. 하지만 그렇다고 prior를 남용하는건 금물이다.

관찰된 데이터와 자신의 생각 또는 배경지식이 균형을 잘 이루는 것이 중요하다고 볼 수 있겠다.