[시계열분석] 강의록 1
3/16 강의 내용 정리 ( 한국외대 통계학과 신기일교수님 시계열분석 강의)
시계열분석의 목적
1. 모형화 : 필요한 정보와 필요없는 부분을 분해하여 필요한 정보를 간단하게 표현
2. 예측 : 얻어진 모형을 이용하여 미래를 예측
시계열 분석에 필요한 기초적 통계이론들의 간단한 정리
- 확률변수?
= 관심있는 숫자로 어떤 사건을 요약, 표시하는 것.
* 시계열분석에서는 연속 확률변수 (continuous random variable)만을 고려함
* 정규 확률밀도함수 (normal probability density function)
- 기대값과 분산, 공분산과 상관계수
* 기대값(평균):
* 분산:
* 공분산:
* 상관계수:
- 중심극한 정리
* 확률변수가 독립이고 임의의 분포를 따르며 μ 와 σ²을 각각 평균과 분산으로 갖는다면, 자료의 수(n)가 충분히 클때 표본평균의 분포는 다음과 같다.
시계열에서는 정규분포에 대한 가정없이 분석을 하고 자료들이 독립이 아니기 때문에 추론과정에서 중심극한 정리를 자주 이용하여 분석한다. (복잡하기 때문)
시계열자료 ?
: 시간의 흐름에 따라 관측된 자료
그중 우리가 배울 시계열 분석에서는 일정한 시간간격(equally spaced time interval)에 따라 관측된 시계열 자료만을 고려한다.
주사위를 열번 던지는 실험에서 각 주사위를 던지는 시점을 t라고 가정하고 시계열 변수를 Xt = t + (주사위 눈의 수 )^2 라고 한다면
특정한 가중치 없이 그때마다 나오는 눈의 수를 나열한 일반적인 자료와는 달리 시계열 자료는 시간에 따른 가중치가 존재한다.
at를 서로 독립인 확률 변수로 평균이 0, 분산이 σ² 라고 가정하고 시계열 자료 Xt = at 라면,
at = 백색잡음(white noise,...오차),
미지의 모수 Φ를 설정하여 시계열자료의 모형을 표현해보면
다음과 같은 형태로 적을 수 있다. 이 모형을 MA모형 이라고 부르기도 한다.
시계열 자료이기 때문에 t 대신 t-1을 대입하여 식을 다시 써보면
t시점보다 한시차 과거의 자료를 표현하는 모형이 되고
식의 양변에 Φ 를 곱하면
따라서 위의 수식을 참고해 Xt를 다시작성해보면
다음과 같이 표시할 수 있다. 이 모형을 AR모형이라고 부르기도 한다.
MA모형의 경우 주로 기대값, 분산, 공분산, 상관계수와 같은 값을 구할때 주로 사용하고
AR모형의 경우 실질적으로 시계열 모형에 대해서 설명하는데 많이 사용되며 계산이 더욱 용이하다.
모형 식별 이전단계에서 시계열 그림을 통해 자료 파악하기
- 시계열그림 고찰 : 다음과 같은 조건들을 만족하는지 먼저 체크
1. 시간이 흐를수록 자료가 증가하거나 감소하는가?
2. 시간이 흘러가도 자료의 변동이 일정한가? 아니면 커지거나 작아지는가?
3. 자료에 대한 가상의 평균선을 중심으로 평균선을 통과하는 횟수가 적은가?
4. 자료가 주기적으로 일정한 모양을 갖는가?
Box-Jenkins 모형화 방법
1. 모형의 식별 (Model identification)
2. 모수의 추정 (Parameter estimation)
3. 모형의 적합성 검정 (Model diagnostic checking)