데이터 사이언스/Statistics

[통계학] 최대 가능도 추정량 (Maximum Likelihood Estimator)란?

라니체 2022. 6. 14. 23:14
728x90

 

아래 게시글에서 베이지안적 사고와 빈도주의적 사고에 대해서 서술하였다.

https://raniche-note.tistory.com/16

 

두 사고 모두 기본적으로 데이터의 분포에 대한 가정에서 시작된다.

물론 데이터의 분포에 대해서 전혀 가정하지 않고 진행하는 empirical distribution methods  non-parametric methods 도 존재하긴 한다.

하지만 전통적인(?) 통계학의 관점에서는 아무래도 분포를 가정하고 그에 해당하는 모수를 추정하는 프로시져가 자연스럽다. 오늘은 이와 같은 논조에서 분포를 가정하고 모수를 추정하는 방법론 중에 하나인 최대 가능도 추정법에 대해서 알아보도록 하겠다.

 

이를 위해서는 먼저 가능도(likelihood)의 개념을 알아야 하겠다.

가능도란, 위키백과에 따르면 확률 분포의 모수가, 어떤 확률변수의 표집값과 일관되는 정도를 나타내는 값 이라고 한다. 즉, 분포의 모수가 어떤 값을 가질 때, 그 해당 분포에 의해서 우리가 가지고 있는 관측값들이 나타날 가능성을 수량적으로 표현한 것이다.

 

해당 설명은 예를 통해서 설명하는게 더 직관적으로 와닿을 듯 하다.

예를 들어, 동전던지기를 한번 시행해서 앞면이 9번, 뒷면이 1번 나왔다고 치자. 그리고 동전던지기 시행에서 동전이 앞면이 나올 확률이 하나의 값으로 정해져 있다고 치자. (즉, 동전던지기 시행에서 동전이 앞면이 나오는 횟수는 이항분포 B(10,p) 를 따른다.) 하지만 우리는 이 값 p를 모른다고 치자.

 

이때 만약 앞면이 나올 확률 p를 0.1 이라고 한다면, 앞면이 9번, 뒷면이 1번 나올 확률은 다음과 같다.

$$P(X=9)=\begin{pmatrix}10\\9\end{pmatrix}\ 0.1^9\ 0.9^1\ \ =9\cdot 10^{-9},\ \ \ \ X는\ 앞면이\ 나온\ 횟수$$

만약 앞면이 나올 확률 p를 0.2 라 한다면, 앞면이 9번, 뒷면이 1번 나올 확률은 다음과 같다.

$$P(X=9)=\begin{pmatrix}10\\9\end{pmatrix}\ 0.2^9\ 0.8^1\ \ =4.096\cdot 10^{-6},\ \ \ \ X는\ 앞면이\ 나온\ 횟수$$

이런식으로 진행하다보면 각 모수의 값마다 X=9가 나올 확률을 계산해 낼 수 있다. 즉, 각 모수의 값마다 관측값들이 발생했을 가능성을 계산해낼 수 있는 것이다. 그리고 이 가능성(Likelihood)이 가장 커지게 하는 모수의 값을 최대 가능도 추정치(MLE, Maximum Likelihood Estimate) 이라고 한다.

 

위의 예제에서는 실제로 계산해보면 p의 값이 0.9일때 가능도가 최대가 되므로 0.9가 위 문제에서 최대 가능도 추정치(MLE)가 된다. 즉, p가 0.9의 값을 가질 때, 동전의 앞면이 9번, 뒷면이 1번 나오는 사건이 발생할 가능성이 가장 높다는 것이다.

 

최대가능도추정치를 구하기 위해서는 가능도 함수를 먼저 정의할 수 있어야 한다. 그런데 가능도 함수를 정의하기 위해서는 먼저 분포를 가정해야한다. 위의 예시에서는 이항분포를 가정하고 가능도 함수를 정의할 수 있었다. 참고로 위의 예시에서 가능도 함수는 아래와 같다.

 

$$L(p)=\begin{pmatrix}10\\9\end{pmatrix}p^9\left(1-p\right),\ \ \ p는\ 앞면이\ 나올\ 확률$$

 

그리고 보통은 가능도 함수가 continuous 함수이므로, Newton Raphson 방법과 같은 최적화 기법을 사용해서 최대값을 구해낸다.

최대 가능도 추정량(Maximum Likelihood Estimator)은 통계학에서 좋은 성질들을 많이 가지고 있다. 이에 대한 이야기는 다음 포스팅에서 정리해보도록 하겠다.