데이터 사이언스/Statistics 15

[통계학] 시계열 데이터에서 나타나는 가성 회귀(spurious regression) 문제

오늘은 시계열 데이터를 가지고 회귀분석을 돌릴때 종종 나타나는 가성 회귀(spurious regression)에 대해 써보고자 한다. 가성 회귀란 두 시계열 데이터 사이에 실제로는 인과관계가 없는데 시간적 우연성으로 인해 유의한 상관관계가 나타나는 것을 말한다. 가성 회귀의 예시들은 아래 링크에서 아주 잘 정리해놓았다. http://mayoral.iae-csic.org/timeseries_insead/examplespurious.pdf 그 중 몇가지만 예시를 들어보자면 미국의 수출 인덱스와 호주의 남성 기대 수명은 유의한 수준의 양의 상관을 보였으며 미국의 R&D 지출과 남아프리카의 인구 간에도 유의한 수준의 양의 상관을 보였다. 즉, 두 시계열은 각자의 시간적 추세에 따라 증가했을 뿐인데 그 둘만 놓고..

[통계학] 시계열 분석에서 AR, MA 모형이란?

오늘은 시계열 분석에서 기본적인 모형인 AR모형과 MA 모형에 대해서 알아보고자 한다. 먼저, AR모형은 Autoregressive model 의 줄임말로 우리말로 자기회귀모형이다. AR(p) 모형은 아래와 같이 표현된다. 즉, t번째 시점에서의 값이 과거 p시점 전까지의 값들에 영향을 받는 형태이다. MA 모형은 Moving average model 의 줄임말로 우리말로 이동평균모형이다. MA(q) 모형은 아래와 같이 표현된다. 시계열 데이터를 보고 AR모형인지 MA 모형인지 어떻게 판단하며 만약 AR 모형이라면 p를, MA모형이라면 q를 어떻게 설정할까? 참고로 이 작업을 하기에 앞서 시계열데이터가 stationary한지부터 체크해봐야 한다. 시계열 데이터가 stationary해야 그 시계열 데이터가..

[통계학] 시계열 분석에서 stationary란 ?

오늘은 시계열 분석에서 자주 등장하는 개념인 stationarity(정상성)에 대해서 알아보고자 한다.시계열이 정상적이라는것은 무엇을 말하는 걸까?결론부터 얘기하자면, 시간이 지남에 따라 시계열의 규칙(결합확률분포)이 바뀌지 않는것을 말한다. 이게 무슨말인가 하면, 시간이 지남에 따라 평균과 분산이 변하지 않으며, 임의의 한 point를 기점으로 주변에 있는 point들과의 확률 분포관계가 변치 않음을 의미한다. 이를 수식으로 표현하자면 아래와 같다.  Stationary의 대표적 예시로는 AR 모델이 있다.AR(p) 모델은 아래와 같이 표현된다. $$Y_t\ =\ b_0\ +\ b_{1\ }Y_{t-1}+...b_pY_{t-p}\ +\ \epsilon _t$$ 예를 들어 어떤 시계열이 아래와 같은 AR..

[통계] 통계학 관련 자격증

오늘은 통계 관련 자격증을 좀 정리해보겠다. 개인적으로 필자는 아직 통계관련 자격증이 하나도 없지만, 하나씩 모으는 재미가 있을거 같기도 하다. ​ ​ 먼저, 대표적인 자격증이라 할 수 있는 사회조사분석사 자격증이다. 사회조사분석사 자격증의 경우 2급과 1급이 있는데 2급은 응시제한이 없는 반면, 1급의 경우에는 실무 경력 3년 또는 사회조사분석사 2급 취득 후 2년 경력이 필요하다. 2급의 경우 필기시험에서는 조사방법론과 사회통계를 과목으로 하며, 실기시험에서는 필답형 시험과 SPSS/R 등으로 하는 프로그래밍 시험이 있다. 그리고 1년에 3~4번정도 시험이 열리는 것으로 알고 있다. 그리고 사회조사 분석사 2급은 통계청 공무원 지원 시 가산점이 있는것으로 알고 있다. ​ ​ 두번째로는 품질경영기사 이..

[통계학] 다중공선성은 정말로 예측력과 상관없을까?

Multicollinearity and Prediction¶ 오늘은 다중공선성과 예측력이 관련이 있는지 알아보고자 한다. 일반적으로 다중공선성은 회귀계수의 불확실성을 증폭시키는 문제가 있다고 알려져있다. 하지만, 예측력과는 크게 상관이 없다고 필자는 학부 회귀분석 시간에 배운바가 있다. 이것이 정말 사실일지 한번 실험적으로 확인해보고자 한다. 실험 셋팅은 이전 게시글인 "다중공선성과 신뢰구간, 1종오류, 2종오류" 편과 동일하게 하였다. In [17]: #install.packages("mvtnorm") set.seed(1) library(mvtnorm) In [18]: cov

베이지안 시계열 모형 prophet (in Python)

PROPHET 사용법¶ In [33]: # 패키지 버전 확인 from fbprophet import Prophet #prophet 모델링에 필요한 패키지 !pip show fbprophet Name: fbprophet Version: 0.7.1 Summary: Automatic Forecasting Procedure Home-page: https://facebook.github.io/prophet/ Author: Sean J. Taylor , Ben Letham Author-email: sjtz@pm.me License: MIT Location: c:\users\test\anaconda3\lib\site-packages Requires: python-dateutil, tqdm, Cython, matplo..

다중공선성과 신뢰구간, 1종오류, 2종오류

회귀분석을 공부하다보면 다중공선성(Multicollinearity)에 대해서 배우게 된다. 다중공선성은 회귀모형에서 설명변수들 간의 상관성이 클때, 그 설명변수의 회귀 계수의 불확실성, 즉 표준오차(Standard Error)가 필요 이상으로 커짐을 의미한다. 이것은 좀 더 쉽게 얘기하면, 회귀계수가 실제로 유의하지만 유의하지 않게 될 가능성이 커짐을 의미한다. 즉, 모형 자체가 너무 보수적으로 되는것이다. 나는 문득 다중공선성이 신뢰구간의 기능 자체를 깨뜨리는건 아닌가 하고 생각하게 되었다. 즉, 다중공선성으로 인해 본래 신뢰구간의 기능인 같은 데이터 발생 상황에서 100번 중에 95번은 신뢰구간이 모수값을 포함한다는 그 기능 자체가 망가지는 건 아닌가 하고 생각해보게 되었다. 그런데, 분명 내가 회귀..

영화 "더플랜" 을 통해 배우는 통계검증의 심각한 오류

학부때 썼던 글인데 다시 끄집어내본다... 통계학에서 이런 오류는 정말 흔한것같다. ======================================================================================= 본인은 특정 정당을 지지하여 이글을 쓴것은 아님을 미리 밝힙니다. 최근에 개봉한 영화중에 통계학을 다룬 영화가 있어서 보게 되었다. 그 영화의 제목은 "더 플랜" 흔치 않은 소재인거 같은대.. 해당 전공자로써 반가웠다. 주제 또한 2012 대선에 관한것이라서 흥미진진!! 사실 여기에 나오는 통계적인 해석에 대해서는 아직 까지 만장일치의 의견이 나오지 않고있다. 나는 다만... 장황하지 않고 짧고 간결하게 내 의견을 정리해 보고자 한다. 영화를 보지 않으신 분들도 또는..

[통계학] 베이지안적 사고와 빈도주의적 사고

우리는 어떤 현상이 발생했을때, 그 내면에 깔려있는 시스템이 존재한다고 생각한다. 통계학에서 그 시스템은 바로 확률 분포가 된다. 즉 우리눈에 보이는 데이터가 우리 눈에 보이지 않는 어떤 시스템에 의해서 발현(realization)되었다고 본다. ​ 그리고 그 시스템, 즉 분포는 그 분포를 결정짓는 모수(parameter)가 있다고 가정하며 그 모수를 추정하는 방법에는 베이지안 방법(bayesian method)과 빈도주의자 방법(frequentist)이 있다. 사실 두가지 방법 모두 나름의 합리적인 근거를 가지고 있기 때문에 어느 방법이 더 옳다 라고 판단할 수는 없다. 오늘은 이 두가지 방법이 깔고 있는 그 근거를 살펴보고자 한다. ​ 설명을 쉽게 하기 위해서 예시를 들어보겠다. 어떤 남자가 인형뽑기..

[통계학] 최대 가능도 추정량 (Maximum Likelihood Estimator)란?

아래 게시글에서 베이지안적 사고와 빈도주의적 사고에 대해서 서술하였다. https://raniche-note.tistory.com/16 두 사고 모두 기본적으로 데이터의 분포에 대한 가정에서 시작된다. 물론 데이터의 분포에 대해서 전혀 가정하지 않고 진행하는 empirical distribution methods 나 non-parametric methods 도 존재하긴 한다. 하지만 전통적인(?) 통계학의 관점에서는 아무래도 분포를 가정하고 그에 해당하는 모수를 추정하는 프로시져가 자연스럽다. 오늘은 이와 같은 논조에서 분포를 가정하고 모수를 추정하는 방법론 중에 하나인 최대 가능도 추정법에 대해서 알아보도록 하겠다. 이를 위해서는 먼저 가능도(likelihood)의 개념을 알아야 하겠다. 가능도란, 위..