카테고리 없음

[수리통계] 자유도 n-1과 불편추정량

oogieon_n_on 2022. 3. 8. 10:00

3/7일 수리통계학 첫수업 듣고 단편적인 개념들 정리 (한국외대 이석호 교수님의 수리통계학 수업과 통계의본질 블로그를 참고하여 정리했습니다.)

모분산과 표본분산의 수식

위는 흔히 통계를 접하면서 배우는 분산식이다. 일반적인 모분산은 변량의 제곱의 합을 집단의 크기n으로 나누어서 구한다. 하지만 표본의 경우는 집단의 크기가 아닌 '집단의 크기 -1' (n-1)로 나누어서 구한다. 왜 n 이 아닌 n-1로 나눠주는 걸까?

 

​1. 불편추정량?

 

우선 표본분산을 구할 때 집단의 크기에서 -1 해준 값으로 나누는 것은 표본 분산을 불편추청량으로 만들어주기 위함이다. 

 

불편추정량은 편의(bias)가 없는 추정량을 의미하며 여기서 편의란 추정량의 기댓값과 실제 모수와의 차이를 나타낸다.

 

통계에서는 어떠한 모집단을 설정하고 이 모집단에서 random하게 추출한 sample의 통계량을 가지고 모집단의 통계량을 추정한다. 모집단의 평균과 분산은 각각 표본 평균의 평균과 표본분산의 평균에 대응된다는 고등학교때 지겹도록 배운 바로 그 개념이다. 모집단의 통계량을 정확히 파악할 수 없으니, 표본을 통해 모수를 추정하는 것이다. 이 모수를 추정하는 값들을 추정량이라고 부르고 추정량의 기댓값과 실제 모수와의 차이를 편의(bias)라고 부른다. 즉, 불편추정량은 기대값(평균)이 모수와 동일한 추정량이라는 뜻이다. 

 

그렇다면 왜 n-1로 나누는 것이 추정량의 기대값과 모수의 편의를 줄여줄까? 표본분산은 n-1로 나눠서 계산해야 그 평균이 모집단의 분산과 같기 때문이다. (수학적인 증명 추후 추가예정)

 

2. 자유도의 개념?

 

자유도는 독립변수의 개수를 의미한다. 예를들어 a+b+c=3이라는 방정식이 있다면 이 방정식의 자유도는 2이다. 만약 a와 b가 1과 0으로 결정되면 c도 2라는 고정된 값으로 결정되기 때문이다. 이 경우 c는 독립변수가 아닌 종속변수이다. 

 

이 개념을 평균과 분산식에 적용해보면 

 

크기가 n인 표본의 평균과 분산을 구하는 수식

 

표본분산을 구할때 표본평균이 a라는 값으로 특정될 경우 x1,x2,...xn중 n-1개의 값만 정해진다면 나머지 하나는 종속적으로 정해진다. 독립변수가 n-1개인 식이 되는 것이다. 따라서 표본분산을 구할때의 자유도는 n-1이 된다.