데이터 사이언스 40

SHAP value에 대하여 (이론편)

black-box 모델인 머신러닝의 예측값에 대한 설명 니즈가 커지고 있다. 이에맞추어 오늘은 XAI 방법론 중에 하나인 SHAP value 에 대해서 깊이 파보고자 한다. 경제학의 게임이론 분야에서 대가인 Lloyd Shapley(1951) 가 제안했던 Shapley Value의 개념을 머신러닝의 해석에 적용한 것이 SHAP Value 이다. 이러한 SHAP Value는 Su-In Lee 와 Scott Lundberg 가 2017년에 "A Unified Approach to Interpreting Model Predictions" 라는 제목의 논문으로 발표하였다. Shapley value는 Efficiency, Dummy player, Symmetry, Strong monotonicity, Additi..

[경제공부] 명목 gdp 가 실질 gdp 보다 작을 때

경제 지표 중에 한 나라의 경제 총 량을 나타내는 지표인 gdp(gross domestic product, 국내 총 생산) 이라는 것이 있다. 그리고 이러한 gdp는 보통 전년 대비의 성장률로 나타내는데 이러한 gdp 성장률에는 물가 변화를 그대로 적용한 버전인 명목 gdp 성장률과 물가 변화를 감안하여 조정한 실질 gdp 성장률이 있다. 일반적으로 물가는 상승하기 때문에 명목 gdp 성장률이 실질 gdp 성장률보다 크다.하지만 최근 뉴스기사를 보면 중국의 명목 gdp 성장률이 실질 gdp 성장률을 하회한다는 말이 자주 나온다.이는 디플레이션의 신호가 될 수 있으며, 경기가 좋지 않음을 간접적으로 보여준다. 디플레이션은 상품과 서비스의 가격이 계속해서 떨어지는걸 말하는데, 이러한 디플레이션은 수요 부진,..

통계학이 공부할만한 충분한 가치가 있는지에 대한 고찰

오늘은 대뜸 통계학을 내가 왜 공부하고 있고 이게 도대체 사회에 어떤 도움이 되는지생각해보게 되었다. 통계학 (데이터사이언스 포함) 이란 유용한 도구임에 틀림이 없으며 집단이나 사람들의 의사결정에 분명한 도움을 준다.  그것은 인텔리전스로써 기업의 이윤 창출에 도움을 줄 수 있으며 또는 공공의 복지를 위한 의사결정에 도움을 줄 수 있다.  분명한것은 이는 어디까지나 사람들의 의사결정에 사용되는(도움을 주는) Tool 이라는 점이다. 사람들은 언제나 이에 반하는 (즉, 통계적 분석 결과와 합치되지 않는) 의사 결정을 내릴 수 있다.결국 결정하는 것은 사람이기 때문에... 그럼에도 불구하고 통계학은 유용한 도구임에는 틀림이 없지만 그것을 어디에 붙일지는 사용하는 사람에 달렸다. 그렇다면 궁극적으로 이 통계학..

통계모델은 validation을 안하나요? (feat. Goodness of Fit)

실무를 뛰면서 머신러닝 모델과 통계 모델을 같이 돌리고 있다.여기서 굳이 머신러닝 모델과 통계 모델로 구분한 이유는 통계 모델의 경우 대체로 모델에 대한 가정, 특히 잔차의 분포에 대한 가정이강하게 들어가는 편이고 가능도(likelihood)를 기반으로 모델 파라미터가추정이 되는 반면에 머신러닝 모델의 경우 모델에 대한 기본 알고리즘이 존재하긴 하지만, 그것이 분포에 대한 가정으로까지 이어지지 않는 경우가 많다.  즉, 머신러닝 모델은 '~~이런 알고리즘으로 하면 우리가 원하는 형태로 모델이 output을 잘 내주지 않을까요?' 라고 가정한다고 본다면, 통계 모델은 좀 더 직접적으로 '우리의 데이터가 이러한 Data Generating Process (DGP)' 에 의해 탄생하지 않았을까요? 라고 가정한..

[딥러닝] 딥러닝에서 weight initialization 의 영향력

현업에서 딥러닝 모델을 돌리다 보면 initialization 값(여기서 initialization 값이란 모델에 처음으로 배정되는 weight 값들을 말한다) 때문에 스트레스를 받는다. 왜그런가하면 일반적인 딥러닝의 하이퍼파라미터인 learning rate와 batch size, epoch 등을 결정했다고 하더라도 처음에 배정된 initialization 값에 따라 모델 결과가 돌릴때 마다 다르게 나오기 때문이다. (이는 XGBoost나 SVM과 같은 하이퍼파라미터에 deterministic한 모델들과는 다른 특징이다.) 그리고 그 영향력은 생각보다 쎄다. 어쩌면 모델의 성능에서 가장 영향력이 크다고 알려진 learning rate보다 영향력이 클지도 모른다.. 그렇기 때문에 optuna 등으로 하이퍼..

[경제공부] 국채금리, 고용 둔화, 주가간의 관계

얼마전에 기사를 보다가미국 10년물 국채 금리가 지금 매우 높은편인데 (미국의 미친듯한 기준금리 인상 릴레이로 인해서)최근 미국 비농업 고용이 저번달 대비 줄어들면서국채 금리가 일제히 하락했다는 내용을 본적이있다. (경기침체에 대한 우려로 안전 자산인 미국 국채가 비싸지니까)그리고 그 여파로 주가가 상승 랠리를 탈 가능성이 있다고 한다.  즉, 미국 국채 금리가 떨어지면 주가가 오른다는 말이다. 왜그럴까? 미국 국채 금리가 떨어진다는 것은 미국 국채가 비싸진다는 뜻이 된다.그러므로 투자자 입장에서는 미국 국채보다는 일종의 대체재인 주식으로 이동해간다는것을 의미하는것 같다.(또는 안전 자산인 미국 국채 금리가 낮으므로 위험 자산인 주식을 통해 얻는 대가가 상대적으로 커진것 때문일 것이다. 반대로, 안전 자..

[통계학] 시계열 데이터에서 나타나는 가성 회귀(spurious regression) 문제

오늘은 시계열 데이터를 가지고 회귀분석을 돌릴때 종종 나타나는 가성 회귀(spurious regression)에 대해 써보고자 한다. 가성 회귀란 두 시계열 데이터 사이에 실제로는 인과관계가 없는데 시간적 우연성으로 인해 유의한 상관관계가 나타나는 것을 말한다. 가성 회귀의 예시들은 아래 링크에서 아주 잘 정리해놓았다. http://mayoral.iae-csic.org/timeseries_insead/examplespurious.pdf 그 중 몇가지만 예시를 들어보자면 미국의 수출 인덱스와 호주의 남성 기대 수명은 유의한 수준의 양의 상관을 보였으며 미국의 R&D 지출과 남아프리카의 인구 간에도 유의한 수준의 양의 상관을 보였다. 즉, 두 시계열은 각자의 시간적 추세에 따라 증가했을 뿐인데 그 둘만 놓고..

무언가를 분명하게 말해준다는게 얼마나 어려운 일인지

지식의 체계는 생각보다 다운 탑으로 이루어져 있다. 밑에가 완전히 채워져있지 않으면 그 지식은 어딘가 모르게 불안정하며, 그것을 전달하는 사람도 자신이 없다. 그런 의미에서 지식을 쌓는 과정은 어쩌면 지름길이 없을지도 모른다. 그리고 때로는 아래와 같은 질문에 답하기 어려운 상황에 직면하곤 한다. "그래서 이때는 A를 써야되, 아니면 B를 써야되, 아니면 무언가 새로운걸 써야되?" 위와 같은 질문은 특히, 데이터사이언스 현업에서 자주 일어나는 질문이며, 최신의 방법론이나 고도화된 복잡한 방법론을 쓸때에는 저 질문에 대한 답변을 해주는것이 더욱 어렵다. 현재 내가 직면하고 있는 문제가 생겼는데 거기에 무언가 내가 이론적으로 확실히 이해하지 못한 방법론을 쓰려할때 위와 같은 질문을 받으면 난처해진다. 그런데..

[통계학] 시계열 분석에서 AR, MA 모형이란?

오늘은 시계열 분석에서 기본적인 모형인 AR모형과 MA 모형에 대해서 알아보고자 한다. 먼저, AR모형은 Autoregressive model 의 줄임말로 우리말로 자기회귀모형이다. AR(p) 모형은 아래와 같이 표현된다. 즉, t번째 시점에서의 값이 과거 p시점 전까지의 값들에 영향을 받는 형태이다. MA 모형은 Moving average model 의 줄임말로 우리말로 이동평균모형이다. MA(q) 모형은 아래와 같이 표현된다. 시계열 데이터를 보고 AR모형인지 MA 모형인지 어떻게 판단하며 만약 AR 모형이라면 p를, MA모형이라면 q를 어떻게 설정할까? 참고로 이 작업을 하기에 앞서 시계열데이터가 stationary한지부터 체크해봐야 한다. 시계열 데이터가 stationary해야 그 시계열 데이터가..