머신러닝 3

SHAP value에 대하여 (이론편)

black-box 모델인 머신러닝의 예측값에 대한 설명 니즈가 커지고 있다. 이에맞추어 오늘은 XAI 방법론 중에 하나인 SHAP value 에 대해서 깊이 파보고자 한다. 경제학의 게임이론 분야에서 대가인 Lloyd Shapley(1951) 가 제안했던 Shapley Value의 개념을 머신러닝의 해석에 적용한 것이 SHAP Value 이다. 이러한 SHAP Value는 Su-In Lee 와 Scott Lundberg 가 2017년에 "A Unified Approach to Interpreting Model Predictions" 라는 제목의 논문으로 발표하였다. Shapley value는 Efficiency, Dummy player, Symmetry, Strong monotonicity, Additi..

딥러닝과 머신러닝, 그리고 모수적 방법과 비모수적 방법이란 ?

사실 머신러닝이 딥러닝을 포함하는 개념이지만 본 포스팅에서는 뉴럴 네트워크 기반의 모델을 딥러닝으로, 그 외의 모델들을 머신러닝으로 지칭하기로 한다. ​ 우리는 데이터로부터 어떤 현상이나 규칙을 포착해내기 위해서 모델링을 진행한다. 즉, 우리가 관심이 있는 변수 y가 다른 변수들(x1,x2,...)와 어떤 (함수) 관계가 있는지 파악하고 이를 통해 미래의 y를 예측하거나, 현상을 설명하고자 한다. ​ 요즘에는 딥러닝 모델들이 AI를 대표하면서 뛰어난 성능을 보이고 있다. 그런데 딥러닝이 과연 항상 최선일까? 머신러닝이 딥러닝을 이길 수도 있지 않을까? 답은 데이터의 질(quality)과 개수에 달려 있다. 머신러닝이나 딥러닝 모두 데이터를 먹이(feeding)로 주어야 이를 통해 스스로 학습하면서 유용한..

비선형 모델 및 머신러닝에 대하여 (feat. 튜닝)

학부때 개인적으로 존경하는 교수님께서 통계학의 꽃은 "회귀분석" 이라고 말씀하셨다. 그리고 "회귀분석"은 아무리 강조해도 지나치지 않다고 말씀하셨다. 그 이유는 회귀분석이 모델링의 전반에 대한 기초체력을 기를 수 있게 해주기 때문일 것이다. 회귀분석은 linear regression을 말하는데, linear 라는 특성상 매우 간단하다고 생각하기 쉽다. 하지만 회귀분석은 그 linear한 모형 조차도 매우 신중하게 다룬다. 잔차 plot을 유심히 보기도 하고 적합도 검정(goodness of fit test)을 통해 모형의 goodness를 계속 확인한다. 설명 변수들간의 상관성으로 혹여나 모델의 해석에 왜곡이 생기지는 않는지(다중공선성), 또 그 상관성이 왜 문제가 되는지 수학적으로 풀어헤쳐본다. 이런 ..