시계열 분석(Time series analysis) 훑어보기
3/8 강의 내용 정리 및 추가 공부 부분 (한국외대 통계학과 신기일 교수님의 시계열분석 강의를 참고하여 작성했습니다.)
교수님은 통계를 배우는 우리는 "과학하는 사람들"이라는 말을 계속 강조하셨다.
시계열 자료의 분석 목적? 모형화(modeling)와 예측(forecast) !
y = 3x + 2 -> model
x=4, y=>14 -> prediction (다만 시계열은 미래를 예측하는 학문이므로 forecast라는 말을 많이 사용한다)
시계열분석은 정해진 순서대로, 정해진 양식대로, 정해진 용어와 방식으로!
회귀분석과 시계열분석의 가장큰 차이점은 자료의 순서가 중요하다는 것.
회귀분석은 순서가 상관없기 때문에 선으로 연결할 필요가 없지만
시계열분석은 순서가 중요하기 때문에 선을 연결한 그래프로 표현된 그림을 자주 관찰
분석순서 :
가장먼저 좌표평면에 점을 찍어 산점도를 그리고, 그림들을 고찰하는 것에서 부터 출발
-> 얼마나 자세히 그림들을 살피느냐가 분석의 정확도에 큰 영향을 줌
1. 자료의 이상점(outlier)과 개입(intervention)을 살핀다.
2. 정상성 만족의 여부와 계절성을 살핀다.
3. 추세유무를 판단한다.
4. 분산이 일정한지 판단한다.
이상점은 자료분포중 이상치들을 어떻게 제거할지와 관련된것, intervention은 코로나와 같은 외부요인, 정상성(staionary)는 시간의 흐름에따라 분산과 같은 통계적 특성이 변하는지,
분산의 경우 일정하지 않다면 의도적으로 맞춰줘야한다 - 변환(transformation)과 차분(difference)을 통해 !
위의 조건들을 모두 만족해야 시계열분석을 시작할 수 있다.
첫번째는 200거래일동안 구글주식의 가격변화, 두번째는 같은 거래일동안 구글주식가격의 일일변동, 세번째는 호주의 월별전기생산량 그래프다. 세가지의 그래프 예시중 어떤것이 정상시계열 그래프일까?
우선 3은 분명하게 계절성이 보이고 추세가 있으며 수준또한 변하기 때문에 정상성을 가진다고 보기 어렵다. 첫번째 또한 추세가 분명히 보이기 때문에 정상시계열이라고 볼 수 없으며 두번째가 정상시계열 그래프에 가깝다.
한편 1번과 2번은 같은 구글의 주식가격 그래프이지만 정상성을 나타내는 그래프는 2번뿐이었다. 왜그럴까? 연이은 관측값들의 차이를 계산하여 비정상시계열이 정상성을 나타내도록 하는 차분(difference) 덕분이다.
변환(transformation)과 차분(Difference)
시간에 따라 통계적 특성이 변하는 비정상시계열은 정상시계열로 바꿔준 후 분석해야한다. 이때
- 분산이 일정하지 않은 경우 => 변환, 대체로 로그변환(자연로그)을 사용
- 추세가 있거나 가상의 평균을 지나는 회수가 매우 작을 경우 => 차분, 시간에 따라 연속적인 관측값의 차이를 계산 - Dickey-Fuller test로 검정
Box-Cox 변환을 이용하여 분산을 일정하게 만들어준다.
모형식별(Model identification)
ARIMA (autoregressive integrated moving average) Model = 자가회귀 이동 평균 모형
ARIMA는 데이터에 나타난 자기상관(auto correlation)을 표현하는 것을 목적으로함
B는 연산자(operator)로 차수를 뒤로 한번 밀어주는 후진연산자의 역할
Xt에 작용하는 연산자B는 데이터를 한시점 뒤로 옮기는 효과를 냄
맨끝의 at는 백색잡음(white noise) = 오차(error)
주로 사용되는 통계량 : 자기상관함수(Autocorrelation function, ACF)와 부분자기상관함수(Partial autocorrelation function, PACF)의 상관계수를 구하는 형식으로 진행
데이터로 부터 ACF와 PACF 각각의 표본함수를 추정하고, 추정된 함수들과 이론적인 ACF, PACF를 비교함으로써 모형을 식별
왜이렇게 복잡한 개념들을 사용하고 어려워 보이는 수식과 기호를 사용할까?
교수님말에 따르면 있어보이려 그러는 거라고 한다.
모수추정(Parameter estimation)
추정방법
1. 최소제곱추정법 (Least squares estimation, LSE)
2. 최대가능도(우도)추정법(Maximam likelihood estimation, MLE)
3. 적률추정법(Method of moment estimation, MME)
보통 시작값으로 MME를 많이 사용하고 MLE와 LSE가 분석과정에서 주로 사용됨
모형검진(Model diagnostic)
모형이 잘 fit되었는지 살펴보는 과정
(회귀분석과는 다르게 이미 시작부터 자료를 나타낸 그래프를 보고 등분산성, 정규성, 선형성 등을 전부 검증하거나 변환,차분 했기 때문에 검진에서는 독립성만 따지게 된다.)
1. ACF와 PACF를 구하여 일차적 판단
2. 퍼트멘트 통계량(= 수정된 Q-통계량 or 카이제곱 통계량)이 0.05보다 값이 크면 모형이 잘 적합되었음을 나타냄
예측(forecast)
시계열분석은 미래를 예측하는 일을 주로하기에 prediction보다는 forecast라는 용어를 사용.
최근엔 과거의 데이터를 분석하기도 하며, 이는 backcasting이라고 부름.
forecast는 모형을 찾아낸 후 주어진 모형으로 예측을 하는 과정
최소평균제곱오차예측(Minimun mean square error forecast)을 사용
= 예측 오차의 분산을 최소로 해주는 예측값