범주형 데이터(categorical data)

범주형 데이터는 속성을 구분하는 데이터로서, 요인(factor) 별로 집계하여 표 형태로 요약할 수 있다. 범주형 데이터에는 순서가 없는 명목형(norminal) 데이터와, 순서가 있는 순위형(ordinal) 데이터로 구분된다.

1. 적합도 검정(goodness of fit test)

적합도 검정은 관측이나 실험을 통해 얻어진 표본 데이터의 분포가 특정 형태의 분포와 일치하는지 알아보고 하는 검정 방법으로서, 범주형 데이터의 관측치와 기댓값과의 차이를 근거로 검정을 수행한다. 적합도 검정에서 귀무가설은 “관측 데이터는 특정 분포를 따름”으로 설정되며, 대립가설은 그 반대가 된다. 특정 분포에서 예상되는 기대도수와 실제로 관측된 도수를 근거로 가설검정을 수행한다. 범주의 총 개수를 \dpi{100} k, 범주 \dpi{100} i의 기대도수(expected frequency)를 \dpi{100} E_i, 범주 \dpi{100} i가 관측된 도수(observed frequency)를 \dpi{100} O_i라 하면, Pearson이 제안한 카이제곱 검정통계량은 다음과 같다.

\dpi{100} \chi _0^2 = \sum ^k _{i=1} \frac{(O_i - E_i)^2}{E_i} \sim \chi^2(k-1)

전체 표본개수를 \dpi{100} n이라 하면, 귀무가설에서 지정된 특정 분포에 따라 범주 \dpi{100} i의 발생확률 \dpi{100} p_i를 계산하여 기대도수 \dpi{100} E_i = np_i를 구하고 범주 \dpi{100} i의 도수 \dpi{100} X_i를 관측한다. 이를 위 식에 대입한 검정통계량은 귀무가설 하에서 다음과 같이 카이제곱분포를 따르게 된다.

\dpi{100} \chi _0^2 = \sum ^k _{i=1} \frac{(X_i - np_i)^2}{np_i} \sim \chi^2(k-1)|H_0

관측도수 \dpi{100} X_i와 기대도수 \dpi{100} np_i 간에 차이가 클수록 귀무가설이 틀릴 가능성이 높아지며, 검정통계량 값이 커진다. 따라서 검정통계량 값이 \dpi{100} (k-1)을 갖는 카이제곱분포를 따른다고 보기엔 너무 큰 경우 귀무가설을 기각한다. 이에 따라 유의수준 \dpi{100} \alpha에서 검정의 기각역은 \dpi{100} \chi_0^2 > \chi^2 _ {1-\alpha; k-1}가 된다.

검정통계량의 자유도가 \dpi{100} k-1인 이유는 \dpi{100} k개의 항이 모두 목립이 아니라 \dpi{100} k-1개의 항만이 독립이기 때문이다. 쉽게 설명하여 \dpi{100} \Sigma ^k _{i=1} X_i =n 이고 \dpi{100} \Sigma ^k _{i=1} np_i = n 이므로 \dpi{100} \Sigma_{i=1}^k (X_i - np_i) = 0 이라는 제약이 하나 생기기 때문에 자유도를 하나 잃게 되는 것이다.

귀무가설 \dpi{100} H_0: “관측 데이터는 특정 분포를 따름”으로부터
귀무가설 \dpi{100} H_0: 범주 \dpi{100} i의 발생확률 \dpi{100} = p_i ~ (i=1, 2, \cdots, k)를 설정하면,
검정통계량은 다음과 같이 된다.

\dpi{100} \chi_0^2 = \sum ^k _{i=1} \frac{(X_i -np_i)^2}{np_i}

기각역: \dpi{100} \chi_0^2 > \chi^2 _{1-\alpha; k-1-m}

단, \dpi{100} m은 귀무가설에서 설정한 분포에서 추정한 모수의 개수이다.

2. 교차분석(cross tabulation)

교차분석은 두 개의 범주형 변수 간의 연관성을 분석하는 기법으로서, 크게 ① 동질성 검정② 독립성 검정으로 구분된다. 두 개의 범주형 변수는 교차표(cross table) 혹은 이차원 분할표(two-way contingency table) 형태로 정리되므로 분할표 분석이라고도 한다.

 1) 동질성 검정

동질성 검정은 한 변수의 변화와는 무관하게 다른 변수의 분포가 동일한지를 통계적으로 검정한다. 일반적으로 영향을 줄 수 있는 변수, \dpi{100} X를 행으로, 영향을 받을 수 있는 변수, \dpi{100} Y를 열로 하여 다음과 같이 교차표를 작성한다. 행의 합은 \dpi{100} X의 각 범주에 속한 데이터의 개수로, 사전에 정해진 수이기 때문에 소문자 \dpi{100} n_{i+}로 표기하고, 각 셀의 도수와 열의 합은 확률변수이므로 대문자로 표기한다.

두 변수의 결합분포함수를 \dpi{100} p_{ij} = P(X=i, ~Y=j)라 하고, \dpi{100} X와 \dpi{100} Y의 주변분포함수를 각각 \dpi{100} p_{i+} = P(X=i),~p_{+j} = P(Y=j)라 하면, 동질성 검정의 가설은 다음과 같이 나타낼 수 있다.

귀무가설 \dpi{100} H_0: “\dpi{100} Y의 분포는 \dpi{100} X와 상관없이 동일함”
\dpi{100} \Leftrightarrow \dpi{100} H_0:(p_{i1}, p_{i2}, \cdots, p_{ic}) = (p_{+1}. p_{+2}, \cdots, p_{+c}), ~i=1, 2, \cdots, r

대립가설 \dpi{100} H_1: “\dpi{100} Y의 분포는 \dpi{100} X에 따라 다름”

만약 귀무가설이 사실이라면 모든 \dpi{100} i, ~j에 대해 \dpi{100} E_{ij} = E(N_{ij}|H_0) = n_{i+}p_{+j}이므로 카이제곱 통계량을 \dpi{100} X의 범주 \dpi{100} i에 대해 적용하면,

\dpi{100} \sum^c_{j=1}=\frac{(N_{ij} - E{ij})^2}{E_{ij}} = \sum^c_{j=1}\frac{(N_{ij}-n_{i+}p_{+j})^2}{n_{i+}p_{+j}} \sim \chi^2(c-1)

이를 \dpi{100} X의 모든 범주에 대해 적용하면, 범주들은 서로 독립이므로

\dpi{100} \sum^r_{i=1} \sum^c_{j=1} \frac{(N_{ij} - E{ij})^2}{E_{ij}} = \sum^r_{i=1} \sum^c_{j=1} \frac{(N_{ij} - n_{i+}p_{+j})^2}{n_{i+}p_{+j}} \sim \chi^2(r(c-1))

그러나 확률 \dpi{100} p_{+j}는 모르므로 \dpi{100} \hat p_{+j} = N_{+j}/n 으로 추정하여 위 식에 대입하면 다음과 같은 검정 통계량을 얻게 된다.

\dpi{100} \chi^2_0 = \sum^r_{i=1} \sum^c_{j=1} \frac{(N_{ij} - n_{i+}N_{+j}/n)^2}{n_{i+}N_{+j}/n} \sim \chi^2((r-1)(c-1))

이때 추정된 모수의 개수만큼 자유도를 잃게 되므로, 자유도는 \dpi{100} r(c-1) - (c-1) = (r-1)(c-1)이 된다. \dpi{100} p_{+1},p_{+2},\cdots, p_{+c} 모두를 추정한 것 같지만 \dpi{100} p_{+1}+p_{+2}+\cdots + p_{+c}=1 이므로 실제로는 \dpi{100} (c-1)개의 모수를 추정한 것이 된다. 따라서 기각역은 \dpi{100} \chi_0^2 > \chi ^2 _{1-\alpha;(r-1)(c-1)} 이 된다.

 2) 독립성 검정

독립성 검정은 여러 범주를 가지는 두 개의 변수가 서로 독립적인지 아닌지를 통계적으로 검정하는 기법이다. 동질성 검정과는 달리 영향을 줄 수 있는 변수와 영향을 받을 수 있는 변수를 구분하지 않고 랜덤하게 관측하여 다음과 같이 교차표를 작성한다.

두 변수의 결합분포함수를 \dpi{100} p_{ij} = P(X=i, ~Y=j)라 하고, \dpi{100} X와 \dpi{100} Y의 주변분포함수를 각각 \dpi{100} p_{i+} = P(X=i),~p_{+j} = P(Y=j)라 하면, 독립성 검정의 가설은 다음과 같다.

귀무가설 \dpi{100} H_0: “\dpi{100} X\dpi{100} Y는 서로 독립이다”
대립가설 \dpi{100} H_1: “\dpi{100} X\dpi{100} Y는 서로 독립이 아니다.”

만약 귀무가설이 사실이라면 모든 \dpi{100} i,~j에 대해 \dpi{100} p_{ij} = p_{i+}p_{+j} 이므로 기대도수는 \dpi{100} E_{ij} = E(N_{ij}| H_0) = np_{i+}p_{+j} 가 된다. 이를 위의 카이제곱 통계량을 이용하여 모든 범주에 대해 적용하면 범주들은 서로 독립이므로 다음과 같다.

\dpi{100} \sum^r_{i=1} \sum^c_{j=1}\frac{(N_{ij}-n_i p_{i+}p{+j})^2}{n p_{i+}p{+j}} \sim \chi^2(rc-1)

그러나 확률 \dpi{100} p_{i+},~p_{+j}는 모르므로 \dpi{100} \hat p_{i+} = N_{i+} /n. ~ \hat p_{+j} = N_{+j}/n 으로 추정하여 위 식에 대입하면 다음과 같은 검정 통계량을 얻게 된다.

\dpi{100} \chi_0^2 = \sum^r_{i=1} \sum^c_{j=1} \frac{(N_{ij} - N_{i+} N_{+j}/n)^2}{N_{i+}N_{+j}/n} \sim \chi^2((r-1)(c-1))

이때 추정된 모수의 개수만큼 자유도를 잃게 되므로, 자유도는 \dpi{100} (rc-1)-(r-1)-(c-1) = (r-1)(c-1)이 된다. 따라서 기각역은 \dpi{100} \chi_0^2 > \chi ^2 _{1-\alpha; (r-1)(c-1)} 이 된다.

카테고리: Statistics

0개의 댓글

답글 남기기

Avatar placeholder

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다