비모수적 방법
비모수적 방법
지금까지 게시물의 통계적 추론은 대부분 모집단이 정규분포를 따른다는 가정 하에서 이루어졌다. 그러나 현실에서는 도저히 정규분포로 볼 수 없는 경우도 많이 발생한다. 모집단 분포를 정규분포, 지수분포 등 모수를 갖는 함수 형태의 분포로 가정하고 접근하는 통계적 방법을 모수적(parametric) 방법이라 한다. 반대로 모집단 분포에 대한 가정 없이 접근하는 통계적 방법을 비모수적 방법(non-parametric method)이라 한다.
모수적 방법은 비모수적 방법에 비해 더 효율적이기 때문에 가능하면 모수적 방법을 사용한다. 대표적인 사례가 중심극한정리를 이용하여 표본평균의 분포를 근사적으로 정규분포라 하고 접근하는 방식이다. 그러나 모집단의 분포를 무리하게 모수적 분포로 가정하면, 잘못된 결론을 얻을 수 있으므로 주의할 필요가 있다.
비모수적 방법은 모수적 방법에 비해 비효율적이지만, 다음과 같은 장점이 있다.
- 최소한의 가정만을 사용하므로, 모수적 가정이 잘못되어 생기는 오류의 가능성이 적다.
- 범주형 자료와 같은 순위척도 데이터에 적용할 수 있다.
- 적합도 검정과 같이 모수적 가정에 대한 검정 방법을 제공한다.
- 순위(rank)나 부호(sign)에 기초한 방법 위주이기 때문에, 이상치(outlier)의 영향을 덜 받는다.
1. 부호 검정
부호 검정(sign test)은 분포의 중앙값(median)에 대하여 검정하는 기법으로, 귀무가설은 으로 설정된다. 표본자료에 대하여 보다 큰 것에는 (+) 부호를, 작은 것에는 (-) 부호를 부여하고 (+) 부호의 개수와 (-) 부호의 개수가 비슷하면 에 대해 대칭이므로 귀무가설을 채택하고, 개수의 차이가 크면 귀무가설을 기각한다. 표본 중에서 와 같은 값을 갖는 데이터는 분석에서 제외시킨다.
귀무가설 가 참이라면, 중앙값 를 중심으로 분포가 반반씩 나누어지므로 (+) 부호와 (-) 부호가 나올 확률이 0.5가 된다. 따라서 개의 부호 중 (+) 부호의 개수를 라 하면, 는 이항분포 을 따른다. 로 관측된 경우, 대립가설의 유형에 따라 다음과 같이 검정하낟.
모집단 분포의 중심위치(중앙값)에 대한 검정
검정통계량: 보다 큰 데이터의 개수,
- 인 경우, 이면 귀무가설 기각
- 인 경우, 이면 귀무가설 기각
- 인 경우,
인 경우, 이면 귀무가설 기각
인 경우, 이면 귀무가설 기각
* 표본개수가 충분히 크다면 정규분포로 근사할 수 있겠으나, 연속성 보정이 필요하고 꼬리 부분의 상대오차가 유의하기 때문에, 가능한 이항분포를 사용하여 정확히 계산하는 것이 바람직하다.
2. 런 검정
관측된 표본이 어떤 패턴이나 경향이 없이 랜덤하게 구성되었다는 귀무가설을 검정하기 위하여 런(run) 검정을 사용한다. 예를 들어, 어떤 동전을 던지는데 10회 연속 앞면이 나왔다면, 이 동전이 정상적인지 의심해볼 수 있다.
만약 동전을 20회 던져서 ‘H H T T H T H H H H T H H T T T T T H T’라는 결과가 나왔을 때 연속된 앞면(H), 혹은 뒷면(T)의 결과를 ‘런’이라 한다. 결과를 다시 정리하면 ‘HH, TT, H, T, HHHH, T, HH, TTTTT, H, T’이므로 10개의 런이 나오고, 가장 긴 런의 길이는 5가 된다. 런의 개수가 너무 적거나 너무 많을 때 표본의 임의성(randomness)를 의심하게 된다.
런 검정에서는 표본 데이터를 서로 배타적인 2개의 범주로 나누어 접근한다. 예를 들어, 불량품과 양품, 동전의 앞면과 뒷면, 홀수와 짝수, 중앙값보다 큰 수와 작은 수 등으로 범주를 정할 수 있다.
표본 자료를 두 개의 범주로 나누어 하나의 범주에 속하는 표본자료의 개수를 이라 하고 다른 범주에 속하는 자료의 개수를 라 하자. 과 에 따른 하한과 상한 임계치를 보고 런의 개수가 임계치 표에서 구한 하한치 이하이거나 상한치 이상이면 귀무가설을 기각한다.
표본 데이터의 랜덤성에 대한 검정 확률표본이다.
검정통계량: 런의 개수()
- 양의 상관 관계 이면 귀무가설 기각
- 음의 상관 관계 이면 귀무가설 기각
- 상관 관계 있음 이거나 이면 귀무가설 기각
* 런과 정규분포
가 각각 10보다 클 경우에는 런의 분포가 평균 , 분산 인 정규분포를 근사적으로 따르는 것이 알려져있다. 즉, 을 이용하여 검정할 수 있다. 양측 검정의 경우를 예로 들면, 런의 수가 너무 적어서 이거나, 너무 많아서 이면 귀무가설을 기각한다.
3. Wilcoxon 순위합 검정
두 모집단의 중앙값을 각각 라 할때, 귀무가설 에 대하여 비모수적으로 검정하는 방법을 Wilcoxon 순위합 검정, 혹은 Mann-Whitney 검정이라고 한다. 두 모집단의 분포에 대해서는 아무런 가정도 하지 않으나, 두 모집단은 서로 독립이어야 한다.
첫 번째 모집단에서 개의 표본을 추출하고 두 번째 모집단에서 개의 표본을 추출했다고 하자(단, 편의를 위해 ) 전체 표본의 수는 이 되며, 이를 크기순으로 나열하여 가장 작은 것에 순위 1을, 가장 큰 것에 순위 를 부여한다. 순위를 부여할 때 같은 값의 표본들이 있으면 평균값을 부여한다. 예를 들어, 순위 5~8이 동일한 값을 가지면 각각 평균 순위 6.5를 부여한다.
첫 번째 표본에 속하는 데이터의 순위합을 , 두 번째 표본에 속하는 자료의 순위 합을 라 하면, 아래와 같이 그리고 최소치 를 계산한다. 다음의 정리와 같이 대립가설의 형태에 따라 분포표로부터 p-값을 같이 구하여 가설을 검정한다.
검정통계량
귀무가설
- 인 경우, 이면 귀무가설 기각
- 인 경우, 이면 귀무가설 기각
- 인 경우, 이면 귀무가설 기각
4. Wilcoxon 부호 있는 순위 검정
두 모집단이 독립이 아니라 일대일로 대응되는 경우, 두 모집단 중앙갑싀 차이에 대한 비모수적 검정 방법으로 Wilcoxon 부호 있는 순위 검정을 사용한다. 이 방법은 쌍체(pairwase) t-검정에 대응되는 비모수적 방법이다.
두 모집단으로부터 개의 자료 쌍을 무작위로 추출하여, 각 쌍의 차이에 절댓값을 취하고 크기순으로 나열한다. 차이의 값이 0이 나오는 경우는 제외하고 차이의 절댓값이 가장 작은 것을 순위 1로 시작하여 크기순으로 순위를 부여한다. 순위를 부여할 때 동일한 값이 나오면 순위의 평균을 부여한다.
원래의 차이가 (+) 부호를 가지는 쌍의 순위합을 , (-) 부호를 가지는 쌍의 순위합을 로 놓고, 두 값 중 작은 값을 로 놓는다. 귀무가설 에 대하여 대립가설의 형태에 따라 다음 정리에 준하여 가설 검정을 수행한다.
귀무가설
검정통계량
- 인 경우, 이면 귀무가설 기각
- 인 경우, 이면 귀무가설 기각
- 인 경우, 이면 귀무가설 기각
* 유효 표본개수 이 충분히 크면 정규분포로 근사할 수 있으며, 이때 평균이 , 분산이 이 되므로, 표준화 통계량 을 이용하여 검정할 수 있다. 그러나 가급적이면 정확한 분포를 사용하는 것이 바람직하다.
5. Kruskal-Wallis 검정
Kruskal-Wallis 검정은 일원배치법에 대응하는 비모수 검정으로서, 3개 이상의 모집단을 비교하는데 사용된다. 모집단이 정규모집단인 경우에는 평균의 동일성()을 검정하기 위해 F-통계량을 사용하였으나, 정규분포로 가정할 수 없는 경우에는 Kruskal-Wallis 검정통계량을 사용한다.
모집단 로부터 얻은 표본의 크기를 라 하면, 전체 표본의 크기는 가 된다. 이 전체 표본을 크기순으로 나열하여 순위를 부여한다. 이때 동일한 값을 가진 표본이 있으면 순위의 평균값을 각각 부여한다. 각 모집단 의 표본에 대응하는 순위의 합을 이라 하면, Kruskal-Wallis 검정은 다음과 같이 정리할 수 있다.
귀무가설
대립가설 적어도 하나 이상의 는 다르다.
검정통계량 이면 귀무가설 기각
* 각 표본의 크기가 충분히 큰 경우(5 이상), 통계량 는 귀무가설 하에서 근사적으로 자유도 인 카이제곱분포를 따른다는 사실이 알려져 있다. 따라서 의 값을 계산하여 유의수준 일 때의 카이제곱 분위수 보다 크면 귀무가설을 기각한다.
6. Friedman 검정
Friedman 검정은 Kruskal-Wallis 검정의 확장으로서, 이원배치법 실험에서 얻어진 자료를 비모수적인 방법으로 검정한다. 단, 두 요인 간에 교호작용이 없는 경우에 사용된다. 여기서 관심의 대상이 되는 요인을 라 하고, 실험 환경의 차이를 나타내는 요인, 즉 블록인자를 라 한다. 이러한 실험계획을 난괴법(randomized block design)이라 한다.
요인 의 수준 수를 , 요인 의 수준 수를 이라 하자. 요인 의 각 수준 내에서 데이터를 크기순으로 나열하여 순위를 부여하고, 각 수준별 순위 합계를 구한다. 이때 동일한 값을 가진 표본이 있으면 순위의 평균값을 각각 부여한다. 요인 의 번째 수준에서 순위의 합계를 라고 할 때, 요인 의 수준에 따라 구별되는 개 모집단의 동일성을 검정하기 위해서 다음의 정리와 같이 Friedman 검정을 사용한다.
귀무가설
대립가설 적어도 하나 이상의 는 다르다.
검정통계량 이면 귀무가설 기각
* 귀무가설 하에서 검정통계량 는 인 경우에는 근사적으로 자유도 인 카이제곱분포를 따른다는 것이 알려져있다. 따라서 의 값을 계산하여 유의수준 일 때의 카이제곱분포의 꼬리값 보다 크면 귀무가설을 기각한다.