데이터 사이언스/Statistics

[통계학] 시계열 분석에서 AR, MA 모형이란?

라니체 2023. 2. 15. 21:00
728x90

오늘은 시계열 분석에서 기본적인 모형인

AR모형과 MA 모형에 대해서 알아보고자 한다.

 

먼저, AR모형은 Autoregressive model 의 줄임말로 우리말로 자기회귀모형이다.

AR(p) 모형은 아래와 같이 표현된다.

AR(p) [출처 위키피디아]

즉, t번째 시점에서의 값이 과거 p시점 전까지의 값들에 영향을 받는 형태이다.

 

MA 모형은 Moving average model 의 줄임말로 우리말로 이동평균모형이다.

MA(q) 모형은 아래와 같이 표현된다.

MA(q) [출처 위키피디아]

 

시계열 데이터를 보고 AR모형인지 MA 모형인지 어떻게 판단하며

만약 AR 모형이라면 p를, MA모형이라면 q를 어떻게 설정할까?

 

참고로 이 작업을 하기에 앞서 시계열데이터가 stationary한지부터 체크해봐야 한다.

시계열 데이터가 stationary해야 그 시계열 데이터가 AR 또는 MA 또는 ARMA 모형일 것이기 때문이다.

시계열 데이터가 stationary인지 체크하는 방법은 아래 포스팅에서 다루었다.

 

https://raniche-note.tistory.com/66

 

[통계학] 시계열 분석에서 stationary란 ?

오늘은 시계열 분석에서 자주 등장하는 개념인 stationarity(정상성)에 대해서 알아보고자 한다. 시계열이 정상적이라는것은 무엇을 말하는 걸까? 결론부터 얘기하자면, 시간이 지남에 따라 시계열

raniche-note.tistory.com

 

만약 시계열 데이터가 stationary하다고 판단이 되었다면 이제 데이터가 AR모형에 적합한지, MA모형에 적합한지 확인해보자. 이를 확인하기 위해서는 ACF plot, PACF plot 두가지 그림을 그려보아야 한다. 

 

ACF plot 은 Autocorrelation Function plot을 말하며 주어진 데이터로부터 자기상관계수를 estimate한것을 말한다.

즉, ACF(1)은 Xt 와 Xt-1 간의 상관계수를, ACF(2)는 Xt와 Xt-2 간의 상관계수를 가리킨다.

 

PACF plot은 Partial Autocorrelation Function plot을 말하며 주어진 데이터로부터 조건부 자기상관계수를 estimate한것을 말한다. 예를들어, PACF(2)는 Xt-1 이 주어져 있을때, Xt-2 와 Xt 간의 상관계수를 가리킨다. 즉, 사이에 있는 값들이 모두 알려져있다고 할때 그 두 시점간의 상관계수를 구하는 것이다. 따라서 PACF(1)은 ACF(1) 과 동일하다. (Xt 와 Xt-1 사이에는 아무것도 없기 때문에)

 

데이터로부터 구한 ACF와 PACF를 통해 AR모형과 MA모형을 식별하는 방법은 아래와 같다.

 

이해를 돕기 위하여 예시를 들어보겠다.

먼저 아래와 같은 R코드를 작성하여 AR(1) 모형을 따르는 데이터를 임의로 생성해보았다.

 

y <- rnorm(1)
y_vec <- c(y)
for(i in 1:1000){
    x <- 0.7*y_vec[i]+rnorm(1,0,0.2)
    y_vec <- c(y_vec,x)
}

 

그렇게 생성된 시계열은 아래와 같다.

 

이로부터 구한 ACF plot은 아래와 같다.

R코드)

acf(y_vec)

 

 

이로부터 구한 PACF plot은 아래와 같다.

R코드)

pacf(y_vec)

 

 

ACF의 경우 damped sine의 형태를 띠며, PACF의 경우에는 1 시차 이후로 cut_off 하므로 AR(1) 임을 쉽게 식별할 수 있다.

 

하지만 실제 데이터에서는 노이즈가 크거나 데이터 개수가 많지 않을 경우 위 패턴이 뚜렷이 안보일수도 있다.

게다가 cut_off가 ACF와 PACF에 둘다 나타나는것과 같이 두 패턴이 섞여보일수도 있다. 이럴 경우에는 좀 더 복잡한 모형인 ARMA(p,q) 모형을 고려해보아야 한다. ARMA(p,q) 모형의 p와 q를 선택하는것은 ACF와 PACF만으로는 어려울 수 있다. 따라서 다른 도구가 추가적으로 필요하다. 이에 대한 포스팅은 다음에 진행해보도록 하겠다.