필자는 석사때까지 통계학을 공부했었는데 크로스 엔트로피(Cross Entropy), 엔트로피(Entropy)를 기반으로 하는 정보이론은 거의 접하지 못하였다. 반면에 가능도(Likelihood), 최대가능도추정량(MLE), 최대 사후 확률 (MAP) 와 같은 가능도 함수 기반의 이론은 많이 접했었다. (피셔정보수라던지... score function 이라던지...) 그리고 일반적으로 최대 가능도 추정량은 추정치로써 좋은 성질들을 많이 가지고 있다. (Consistency라던지, Invariance property라던지, Efficiency 라던지...) 그런데 놀라운것은, 머신러닝을 활용한 분류문제에서 많이 쓰이는 크로스 엔트로피를 최소화하는 것이 가능도를 최대화하는 것과 같은 결과를 준다는 것이..