AR을 기준으로.

비정상성을 가지는 데이터라면, 정상성을 가지도록 차분 또는 로그변환을 수행한다.

이후에 정상성을 가지는 데이터로 모델링을 수행한다.

근데 나는 착각을 한 것이 “정상성 = 백색잡음” 이라고 생각했다.

그래서 정상성을 가지면 예측을 할 수 없는 백색잡음인데, 어떻게 모델링을 한다는 것이지?

이렇게 생각해서 혼란이 왔다.

하지만 백색잡음과 정상성은 같은 것이 아니다.

정상성을 가지는 데이터는 비정상성에서 추세, 계절성을 제거한 것이고.

백색잡음은 정상성을 가지면서, 서로 독립이고 평균이 0이고, 분산이 σ^2인 정규분포를 따르는 데이터이다.(에러 텀으로 정의되는 백색잡음)

그래서 백색잡음이 아닌 정상성 데이터에는 추세, 계절성이 없을 뿐 여전히 자기회귀를 통한 예측이 가능한 것이다!!… 맞나?..

어쨌든 차분을 수행한 데이터가 백색잡음인 것이랑 잔차가 백색잡음인 것은 다른것.

전자는 arima(0,0,0) 을 의미할 것이고, 후자는 모형 적합이 잘되었다는 것을 의미함.

또한 모델이 적합이 잘되었다면, 잔차분석을 수행하는데 해당 잔차는 백색잡음이 되어야 한다.

이것도 잘 이해가 안갔는데 예를 통해 이해해보자.

-3,3,-3,3….와 같은 정상성을 가진 시계열 데이터가 있다고 생각해보자.

모델이 잘 적합되었다면, 3 이후의 예측값은 -3,3,-3,3이 될 것이다.

이 때의 잔차는 어떤가?