by TheYoonicon 4월 10, 2018 0 comment

일원분산분석

Post Views: 1,311

분산분석

분산분석(Analysis of Variance: ANOVA)에서는 어떤 요인이 반응치에 영향을 주는지 분석하는 것이 주요목적이 된다.

1. 분산분석의 개념

요인(factor, 인자) 반응치에 영향을 미칠 것으로 예상되는 원인들 중 분석에서 고려되는 원인. 회귀분석의 독립변수
수준(level) 실험 또는 관측에서 선별된 요인의 값
반응치(response value) 요인의 각 수준에서 얻어진 종속변수의 관측치

예를 들어, 화학프로세스에서 온도를 100℃, 150℃, 200℃로, 압력을 1기압, 2기압으로 하여 온도와 압력의 조합을 랜덤하게 바꾸어가며 실험하여 수율(yield)을 측정하였다면, 온도는 3수준 요인, 압력은 2수준 요인이되고, 수율은 반응치가 된다.

요인의 수준 변화에 따른 반응치의 산포를 분석하면 그 요인이 의미가 있는지 여부를 알 수 있다.

분산분석이란 반응치의 산포를 제곱합(sum of squares)으로 나타내고, 이 제곱합을 각 요인의 제곱합으로 분해하여 오차에 비해 의미 있는 영향을 주는 요인을 선별하는 분석방법이다. 각 요인의 제곱합을 그 요인의 자유도로 나누면 그 요인의 평균제곱이 되며, 오차의 평균제곱에 대한 상대적인 크기를 검토하여 의미가 있는지 판단한다. 따라서 분산분석이란 반응치의 산포를 요인별로 분해하여 어느 요인이 의미 있는 산포를 나타내는지를 선별하는 통계적 기법이다.

분산분석이 공정한 결과를 내기 위해서는 고려되는 요인 외에 반응치에 영향을 미칠 수 있는 다른 원인들은 모두 일정 수준으로 고정되어야 하며, 실험(관측) 순서 또한 랜덤하게 이루어져야 한다(랜덤화의 원리)

2. 일원 분산분석

한 요인만 고려하는 경우의 분산분석을 일원 분산분석(one-way ANOVA)이라 한다.

1) 일원 분사분석의 데이터

$\dpi{100} A_1$

$\dpi{100} A_2$

$\dpi{100} \cdots$

$\dpi{100} A_r$

실험의 반복

$\dpi{100} y_{11}$

$\dpi{100} y_{12}$

$\dpi{100} \cdots$

$\dpi{100} y_{1n_1}$

$\dpi{100} y_{21}$

$\dpi{100} y_{22}$

$\dpi{100} \cdots$

$\dpi{100} y_{2n_2}$

$\dpi{100} \cdots$

$\dpi{100} y_{r1}$

$\dpi{100} y_{r2}$

$\dpi{100} \cdots$

$\dpi{100} y_{rn_r}$

합계

평균

$\dpi{100} T_1$

$\dpi{100} \overline y_1$

$\dpi{100} T_2$

$\dpi{100} \overline y_2$

$\dpi{100} \cdots$

$\dpi{100} T_r$

$\dpi{100} \overline y_r$

$\dpi{100} T$

$\dpi{100} \overline y$

요인 $\dpi{100} A$ 가 $\dpi{100} r$ 개의 수준을 가질 때, $\dpi{100} i$ 수준에서 $\dpi{100} n_i$ 개의 반응치를 얻었다고 하자. 일원 분산분석에서는 요인의 수준별로 같은 수의 데이터를 얻을 필요는 없다. 위 표에서 $\dpi{100} y_{ij}$ 는 요인의 $\dpi{100} i$ 번째 수준에서 $\dpi{100} j$ 번째로 얻어진 반응치를 의미한다.

전체 수준에서의 모평균을 $\dpi{100} \mu$ , 수준 $\dpi{100} A_i$ 에서의 모평균을 $\dpi{100} \mu_i$ 라 하면, 데이터의 구조식은 다음과 같이 나타낼 수 있다.

$\dpi{100} y_{ij} = \mu_i + \epsilon _{ij} = (\mu + \alpha_i) + \epsilon _{ij},~ i=1,2,\cdots,r, ~ j=1,2,\cdots,n_i$

여기서 $\dpi{100} \alpha_i = \mu_i - \mu$ 는 요인 $\dpi{100} A$ 의 주효과, $\dpi{100} \epsilon _{ij}$ 는 오차를 의미한다.

기본적으로 오차 $\dpi{100} \epsilon _{ij}$ 들은 서로 독립이고 $\dpi{100} N(0, \sigma^2)$ 분포를 따르는 것으로 가정한다. 오차의 네 가지 가정(독립성, 정규성, 분편성, 등분산성)에 따라 반응변수 $\dpi{100} y_{ij}$ 는 다음과 같은 특성을 갖는다.

$\dpi{100} E(\epsilon_{ij}) = 0$ 이므로 $\dpi{100} E(y_{ij}) = \mu_i = \mu + a_i$
$\dpi{100} Var(\epsilon _{ij}) = \sigma^2$ 이므로 $\dpi{100} Var(y_{ij}) = Var(\epsilon_{ij}) = \sigma^2$
$\dpi{100} \epsilon _{ij}$ 가 서로 독립이므로 $\dpi{100} y_{ij}$ 도 서로 독립이다.
$\dpi{100} y_{ij}\sim N(\mu+a_i, ~\sigma^2)$

* 분산분석의 기본모델

내용 진행에 앞서 분산분석에 대해 다른 방식으로 다시 설명해보려 한다.

분산분석의 기본 모델은 다음과 같다.

$\dpi{100} y_{ij} = \mu_i + \epsilon_{ij},~i=1, 2, \cdots, m,~j=1,2,\cdots, n$

위 모델에서 $\dpi{100} i$ 는 집단의 수, $\dpi{100} j$ 는 각 집단의 크기(각 집단의 표본 수)를 의미한다. 즉 $\dpi{100} i$ 번째 집단의 표본들은 다음과 같이 표시하고 이를 랜덤변수라 한다.

$\dpi{100} y_{i1}, y_{i2}, \cdots, y_{in}$

분산분석의 가정은 랜덤변수와 오차가 정규분포를 따른다는 점이다.

$\dpi{100} y_{ij} \sim N(\mu_i, \sigma^2),~\epsilon_{ij} \sim N(0, \sigma^2)$

그리고 이 $\dpi{100} m$ 개의 집단에 대해 가설검정을 하는 것이 일원배치 분산분석의 목적이다.

다음으로 일원 분산분석에서의 편차들은 아래와 같이 정의 된다.

총편차 $\dpi{100} y_{ij} - \overline y$ 각 표본 관측치 $\dpi{100} y_{ij}$ 와 전체 평균 $\dpi{100} \overline y$ 과의 차이
수준간편차 $\dpi{100} \overline y_i - \overline y$ 각 수준의 평균 $\dpi{100} \overline y_i$ 과 전체 평균 $\dpi{100} \overline y$ 과의 차이
수준내편차 $\dpi{100} y_{ij} - \overline y_i$ 각 표본 관측치 $\dpi{100} y_{ij}$ 와 그 수준의 평균 $\dpi{100} \overline y_i$ 과의 차이, 잔차라고도 함

총편차는 수준간편차와 수준내편차로 분해할 수 있다.

$\dpi{100} y_{ij} - \overline y = (\overline y_i - \overline y) + (y_{ij} - \overline y_i)$

편차를 그대로 더하면 서로 상쇄되므로 편차를 제곱하여 더함으로써 변동의 지표인 제곱합을 구할 수 있다. 위 식의 양변을 제곱하고 모든 데이터에 대해 더하면 다음과 같다.

$\dpi{100} \sum ^r_{i=1} \sum^{n_i}_{j=1} (y_{ij} - \overline y) ^2 = \sum ^r_{i=1} \sum^{n_i}_{j=1} [(\overline y_i - \overline y) + (y_{ij} - \overline y_i)] ^2 \\ ~~~~~~~~~~~~~~~= \sum ^r_{i=1} \sum^{n_i}_{j=1}(\overline y_i - \overline y)^2 + \sum ^r_{i=1} \sum^{n_i}_{j=1}(y_{ij} - \overline y_i)^2 + 2\sum ^r_{i=1} \sum^{n_i}_{j=1}(\overline y_i - \overline y) (y_{ij} - \overline y_i)$

위 식의 마지막 항은 0이 된다. 이와 같이 편차들의 곱의 합이 0이 될때, 두 편차는 직교한다고 말한다. 분산분석에서 고려되는 모든 편차들은 직교하게 되는데, 이를 직교화의 원리라 한다. 따라서 총제곱합은 아래와 같이 수준간제곱합과 수준내제곱합으로 분해된다.

$\dpi{100} SS_T = \sum ^r_{i=1} \sum^{n_i}_{j=1}(y_{ij} - \overline y)^2 = \sum ^r_{i=1} \sum^{n_i}_{j=1}y_{ij} ^2- N \overline y^2 = \sum ^r_{i=1} \sum^{n_i}_{j=1}y_{ij}^2 - \frac{T^2}{N}$

수준간제곱합은 처리제곱합이라고도 하며, 아래와 같이 계산된다.

$\dpi{100} SS_A = \sum ^r_{i=1} \sum^{n_i}_{j=1}(\overline y_i - \overline y) ^2 = \sum ^r_{i=1} n_i \overline y_i^2 - N\overline y^2 = \sum^r _{i=1} \frac{T_i^2}{n_i} - \frac{T^2}{N}$

수준내제곱합은 오차제곱합이라고도 하며, 아래와 같이 계산된다.

$\dpi{100} SS_E = \sum ^r_{i=1}(y_{ij} - \overline y_i)^2 = SS_T - SS_A$

위의 두 식에서 공통적으로 나타나는 $\dpi{100} T^2 / N$ 을 보정항(correction term)이라 하는데, 제곱합을 계산할 때 공통적으로 제하여지는 항으로서, 한번 계산하면 여러 번 사용할 수 있다.

다음으로 각 제곱합의 자유도를 구해보자. 총제곱합에는 $\dpi{100} N$ 개의 편차가 있으나 그 편차들을 모두 더하면 0이 되는 제약 조건이 있으므로 자유도는 $\dpi{100} \phi _T = N-1$ 이 된다. 처리제곱합에는 $\dpi{100} r$ 개의 편차가 있으나 모두 더하면 0이 되므로 자유도는 $\dpi{100} \phi_A = r-1$ 이 된다. 오차제곱합에는 $\dpi{100} N$ 개의 편차가 있으나, 각 수준마다 제약이 있으므로 총 $\dpi{100} r$ 개의 제약으로 인해 자유도는 $\dpi{100} \phi_E = N-r$ 이 된다. 이상을 종합하면, 다음과 같이 총제곱합의 자유도가 처리제곱합의 자유도와 오차제곱합의 자유도로 분할됨을 알 수 있다.

$\dpi{100} \phi_T = N-1 = (r-1) + (N-r) = \phi_A + \phi_E$

2) 가설검정

분산분석은 해당 요인이 반응치에 의미 있는 영향을 주는지 여부를 중요시한다. 만약 해당 요인이 반응치에 아무런 영향을 주지 못하였다면, 요인의 각 수준에서 반응치의 평균은 차이가 없을 것이므로 이를 귀무가설로 설정한다. 즉, 다음의 가설을 검정함으로써 해당 요인의 유의성을 판가름할 수 있다.

$\dpi{100} H_0 :~\mu_1 = \mu_2 = \cdots = \mu_r$

$\dpi{100} H_1:~$ 적어도 한개의 $\dpi{100} \mu_i$ 는 나머지와 같지 않다.

만약 요인의 수준변화가 반응치에 영향을 주지 못한다면(귀무가설이 참이라면) 수준별 반응치의 평균인 $\dpi{100} \overline y_i$ 들은 비슷한 값들이 나올 가능성이 높고 따라서 처리제곱합( $\dpi{100} SS_A$ )은 상대적으로 작게 나올 것이다. 반면에 요인의 수준변화가 주는 영향이 크다면 수준별 반응치의 평균 $\dpi{100} \overline y_i$ 들은 큰 차이를 갖게 되어 처리제곱합( $\dpi{100} SS_A$ )이 상대적으로 크게 나올 것이다. 여기서 상대적이라는 말은 우연히 발생하는 변동인 오차제곱합( $\dpi{100} SS_E$ )에 비해 얼마나 큰가 하는 의미이다. 평균의 차이가 크지 않더라도 오차가 작으면 상대적인 차이는 큰 것이며, 반대로 평균의 차이가 크더라도 오차가 매우 크면 상대적인 차이는 작은 것이다.

이를 비교하기 위해서는 정확한 검정통계량을 구할 필요가 있다. $\dpi{100} SS_A / SS_E$ 정도의 검정통계량을 생각할 수 있겠으나, 이것으로는 공정한 비교가 불가능하다. 적절한 검정통계량을 구하기 위해 우선 각 제곱합의 자유도를 구해보면 다음과 같다.

$\dpi{100} SS_T$ 에는 $\dpi{100} N$ 개의 편차가 있으나 그 편차들을 모두 더하면 0이 되는 제약 조건 $\dpi{100} \Sigma^m_{i=1} \Sigma^{n_i}_{j=1}(y_{ij}- \overline y) =0$ 이 있으므로 자유도는 $\dpi{100} \phi _T = N-1$ 이 된다. $\dpi{100} SS_A$ 에는 $\dpi{100} r$ 개의 편차가 있으나 모두 더하면 $\dpi{100} \Sigma^r_{i=1}n_i(\overline y_i -\overline y) = 0$ 이 되므로 자유도는 $\dpi{100} \phi_A = r-1$ 이 된다. $\dpi{100} SS_E$ 에는 $\dpi{100} N$ 개의 편차가 있지만 각 수준마다 $\dpi{100} \Sigma^{n_i}_{j=1} (y_{ij} - \overline y_i)=0$ 인 제약이 있으므로 총 $\dpi{100} r$ 개의 제약으로 인해 자유도는 $\dpi{100} \phi_E = N-r$ 이 된다.

확률변수 $\dpi{100} X\sim N(\mu, \sigma^2)$ 일 때 $\dpi{100} \frac{1}{\sigma^2} \sum^n_{i=1}(X_i-\overline X)^2 \sim \chi^2(n-1)$ 이 성립함을 이용하면 다음과 같은 성질을 이끌어 낼 수 있다.

$\dpi{100} \frac{SS_E}{\sigma^2}\sim \chi^2(N-r)$
만약 $\dpi{100} H_0:~\mu_1 = \mu_2 = \cdots = \mu_r$ 이 옳다면, $\dpi{100} \overline y_1, \overline y_2, \cdots, \overline y_r$ 은 서로 독립이고 각 변수는 $\dpi{100} N(\mu, \frac{\sigma^2}{n})$ 를 따르므로
$\dpi{100} \frac{SS_A}{\sigma^2} \sim \chi^2(r-1)$
$\dpi{100} SS_A$ 와 $\dpi{100} SS_E$ 는 서로 독립이므로
$\dpi{100} \frac{SS_T}{\sigma^2} \sim \chi^2(N-1)$

F-분포의 정의에 의해 위 성질 중 1.과 2.를 이용하면 다음과 같은 식이 성립함을 알 수 있다.

$\dpi{100} \frac{(SS_A/\sigma^2)/(r-1)}{(SS_B/\sigma^2)/(N-r)} \sim F_{(r-1, N-r)}$

여기서 $\dpi{100} MS_A = \frac{SS_A}{r-1},~ MS_E = \frac{SS_E}{N-r}$ 로 정의(평균제곱)하면 검정통계량은 다음과 같이 표현할 수 있다.

$\dpi{100} \frac{MS_A}{MS_E}$

유의수준 $\dpi{100} \alpha$ 에 대한 기각역은 다음과 같다.

$\dpi{100} F_{1-\alpha;(r-1, N-r)}$

이상을 정리하면 다음과 같다.

	제곱합	자유도	평균제곱	검정통계량	기각역
처리	$\dpi{100} SS_A$	$\dpi{100} r-1$	$\dpi{100} MS_A = \frac{SS_A}{r-1}$	$\dpi{100} \frac{MS_A}{MS_E}$	$\dpi{100} F_{1-\alpha;(r-1, N-r)}$
오차	$\dpi{100} SS_E$	$\dpi{100} N-r$	$\dpi{100} MS_E = \frac{SS_E}{N-r}$
총	$\dpi{100} SS_T$	$\dpi{100} N-1$