1. 모평균 차이에 대한 추론(모분산을 아는 경우)

 1) 모평균 차이의 추정

모분산을 아는 경우, 두 정규 모집단의 모평균 차이\mu_1 - \mu_2 에 대한100(1-\alpha)\% 신뢰구간은 다음과 같다.

[(\overline X_1 - \overline X_2) - z_{1-\alpha/2}\sqrt{\frac{\sigma^2 _1}{n_1} + \frac{\sigma_2 ^2}{n_2}}, ~(\overline X_1 - \overline X_2 + z_{1-\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma^2_2}{n_2}})]

 2) 모평균 차이의 검정

귀무가설 H_0:\mu_1 - \mu_2 = \delta_0

검정통계량 Z_0 = \frac{(\overline X_1 - \overline X_2) - \delta_0}{\sqrt{\sigma_1^2 / n_1 + \sigma_2^2 /n_2}} ~\sim N(0, 1) | H_0

  1. H_1 : \mu_1 - \mu_2 > \delta_0 \Rightarrow 기각역: Z_0>z_{1-\alpha}
  2. H_1 : \mu_1 - \mu_2 < \delta_0 \Rightarrow 기각역: Z_0<z_{\alpha} = -z_{1-\alpha}
  3. H_1 : \mu_1 - \mu_2 \neq \delta_0 \Rightarrow 기각역: |Z_0|>z_{1-\alpha/2}

2. 모평균 차이에 대한 추론(모분산을 모르지만 같은 경우)

 1) 모평균 차이의 추정

모분산을 모르지만 같다고 볼 수 있느 ㄴ경우, 두 정규 모집단의 모평균 차이 \mu_1 - \mu_2 에 대한 100(1-\alpha)\% 신뢰구간은 다음과 같다.

[(\overline X - \overline Y) \pm t_{1-\alpha/2;(n_1+n_2-2)} S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}} ]

단, \overline X = \overline X_1,~ \overline Y = \overline X_2

S_p^2 = \frac{\sum^{n_1}_{i=1} (X_i - \overline X)^2 + \sum^{n_2}_{i=1} (Y_i - \overline Y)^2}{n_1 + n_2 -2}=\frac{(n_1 -1) S_1^2 + (n_2 -1 ) S_2^2}{n_1+n_2-2}

 2) 모평균 차이의 검정

귀무가설 H_0:\mu_1 - \mu_2 = \delta_0

검정통계량 T_0 = \frac{(\overline X_1 - \overline X_2) - \delta_0}{\sqrt{S^2_p (1/n_1 + 1/n_2)}} ~\sim t(n_1+n_2-2) | H_0

단, \dpi{100} S_p^2 = \frac{(n_1-1) S_1^2 + (n_2-1) S_2^2}{n_1+n_2-2}

  1. H_1 : \mu_1 - \mu_2 > \delta_0 \Rightarrow 기각역: T_0 > t_{1-\alpha; n_1+n_2-2}
  2. H_1 : \mu_1 - \mu_2 < \delta_0 \Rightarrow 기각역: T_0 < t_{\alpha; n_1+n_2-2} = -t_{1-\alpha; n_1+n_2-2}
  3. H_1 : \mu_1 - \mu_2 \neq \delta_0 \Rightarrow 기각역: |T_0| > t_{1-\alpha/2; n_1+n_2-2}

3. 모평균 차이에 대한 추론(모분산을 모르며 다른 경우)

 1) 모평균 차이의 추정

두 모분산이 같다는 가정을 할 수 없을 때는 정확한 표본 분포를 유도할 수 없지만, 통계학자 Satterthwaite가 다음과 같은 근사적 방법을 제안하였다,

\dpi{100} T =\frac{(\overline X_1 - \overline X_2) - (\mu_1 - \mu_2)} {\sqrt{S_1^2 /n_1 + S_2^2 /n_2}} \sim t(\nu^*)

여기서 자유도 \dpi{100} \nu^*는 Satterthwaite 자유도라고 하며, 다음과 같이 계산한다.

\dpi{100} \nu^* = \frac{(S_1 ^2 / n_1 + S_2^2/n_2) ^2}{ (S_1^2 / n_1) ^2 / (n_1 -1) + (S_2^2 / n_2)^2 / (n_2 -1)}

이에 따라 \dpi{100} \mu_1 - \mu_2의 \dpi{100} 100(1-\alpha) \% 신뢰구간은 다음과 같이 구할 수 있다.

\dpi{100} [(\overline X_1 - \overline X_2) \pm t_{1-\alpha/2;v^*} \sqrt{S_1^2 /n_1 + S_2^2 /n_2}]

 2) 모평균 차이의 검정

귀무가설 H_0:\mu_1 - \mu_2 = \delta_0

검정통계량 T_0 = \frac{(\overline X_1 - \overline X_2) - \delta_0}{\sqrt{S_1^2 /n_1 + S_2^2 /n_2}} ~\sim t(\nu^*) | H_0

  1. H_1 : \mu_1 - \mu_2 > \delta_0 \Rightarrow 기각역: T_0 > t_{1-\alpha; \nu^*}
  2. H_1 : \mu_1 - \mu_2 < \delta_0 \Rightarrow 기각역: T_0 < t_{\alpha; \nu^*} = -t_{1-\alpha; \nu^*}
  3. H_1 : \mu_1 - \mu_2 \neq \delta_0 \Rightarrow 기각역: |T_0| > t_{1-\alpha/2; \nu^*}

* 표본의 개수가 매우 큰 경우

표본의 개수 \dpi{100} n_1과 \dpi{100} n_2가 매우 큰 경우에는 두 모분산을 모르더라도 대수의 법칙에 의해 \dpi{100} S_1^2 \rightarrow \sigma_1^2, ~ S_2^2 \rightarrow \sigma_2^2 이므로 근사적으로 다음과 같은 검정통계량을 사용할 수 있다.

\dpi{100} Z_0 = \frac{(\overline X_1 - \overline X_2) - \delta_0}{\sqrt{S_1^2 /n_1 + S_2^2 / n_2}}\sim N(0,1)| H_0

  1. H_1 : \mu_1 - \mu_2 > \delta_0 \Rightarrow 기각역: Z_0 > z_{1-\alpha}
  2. H_1 : \mu_1 - \mu_2 < \delta_0 \Rightarrow 기각역: Z_0 < z_{\alpha} = - z_{1-\alpha}
  3. H_1 : \mu_1 - \mu_2 \neq \delta_0 \Rightarrow 기각역: |Z_0| > z_{1-\alpha/2}

4. 모평균 차이에 대한 추론(모집단이 대응되는 경우)

두 모집단이 독립이 아닌 상황도 많이 존재한다. 특히, 동일한 대상에 대해 어떤 조치를 행한 후, 조치 전의 모집단과 조치 후의 모집단을 비교하는 경우 대응되는 모집단이 되며, 이렇게 얻은 표본을 쌍체표본(paired sample)이라 한다. 쌍체표본은 한 표본에서 두 개의 측정값을 구하여 비교하는 경우에 발생하며, 표본마다 나타나는 조치의 차이에 대하여 살펴보는 것이다. 예를 들어, 혈압 약의 효과를 알아보기 위하여 복용 전후의 혈압 차이를 추정하거나, 식이요법 전후의 몸무게 차이를 추정하는 경우가 해당한다.

 1) 모평균 차이의 추정

이때 \dpi{100} n개의 표본에 대하여 조치 전후의 차이를 나타내는 확률표본을 \dpi{100} D_1, D_2, \dots, D_n라 하면 모집단은 두 개이지만 표본은 단일표본이 된다. 이 확률표본이 평균이 \dpi{100} \mu_D = \mu_1 - \mu_2, 분산이 \dpi{100} \sigma_D^2인 정규분포를 따른다고 가정하면, 다음과 같이 표본화한 통계량 \dpi{100} T는 자유도 \dpi{100} n-1인 t-분포를 따르게 된다.

\dpi{100} T = \frac{\overline D - \mu_D}{S_D/\sqrt n} \sim t(n-1)

두 정규 모집단의 모평균 차이 \dpi{100} \mu_1 - \mu_2에 대한 \dpi{100} 100(1-\alpha)\% 신뢰구간은 다음과 같다.

\dpi{100} [\overline D \pm t_{1-\alpha/2; n-1} \frac{S_d}{\sqrt n}]

 2) 모평균 차이의 검정

귀무가설 H_0:\mu_D = \delta_0

검정통계량 T_0 = \frac{\overline D - \delta_0}{S_D/ \sqrt n} ~\sim t(n-1) | H_0

  1. H_1 : \mu_D > \delta_0 \Rightarrow 기각역: T_0 > t_{1-\alpha; n-1}
  2. H_1 : \mu_D < \delta_0 \Rightarrow 기각역: T_0 < t_{\alpha;n-1} = - t_{1-\alpha; n-1}
  3. H_1 : \mu_D > \delta_0 \Rightarrow 기각역: |T_0| > t_{1-\alpha/2; n-1}

5. 모비율 차이에 대한 추론(표본이 큰 경우)

 1) 모비율 차이의 추정

두 모집단 모비율을 각각 \dpi{100} p_1, ~p_2 라 하고 각 모집단에서 충분히 큰 수의 표본 \dpi{100} n_1, ~n_2개를 추출하여 각각 \dpi{100} X개, \dpi{100} Y개의 성공횟수를 얻었다고 하자. 성공횟수 \dpi{100} X와 \dpi{100} Y는 각각 \dpi{100} X \sim B(n_1, p_1), ~ Y \sim B(n_2, p_2)와 같이 이항분포를 따르므로, \dpi{100} E(X) = n_1p_1,~E(Y) = n_2p_2 이며 따라서 \dpi{100} \hat p_1 = X/n_1,~\hat p_2 = Y/n_2는 각각 \dpi{100} p_1, ~p_2 에 대한 불편추정량이 된다.

모비율의 차이에 대한 추정량 \dpi{100} \hat p_1 - \hat p_2에 대한 기댓값은 \dpi{100} E(\hat p_1 - \hat p_2) = p_1 - p_2, 분산은 \dpi{100} Var(\hat p_1 - \hat p_2) = p_1(1-p_1)/n_1 + p_2 (1-p_2 ) n_2 이므로, 중심극한정리와 정규분포의 가법성에 의해 다음이 성립한다.

\dpi{100} \frac{(\hat p_1 - \hat p_2) - (p_1 - p_2)}{\sqrt {p_1(1-p_1) / n_2 + p_2 (1-p_2)/n_2}} \sim N(0,1)

표본 크기 \dpi{100} n_1, ~n_2가 클 때, 두 모집단의 모비율 차이 \dpi{100} p_1 - p_2에 대한 \dpi{100} 100(1-\alpha)\% 근사 신뢰구간은 다음과 같다.

\dpi{100} [(\hat p_1 - \hat p_2) \pm z_{1-\alpha/2} \sqrt{\frac{\hat p_1(1- \hat p_1)}{n_1 } + \frac{\hat p_2 (1-\hat p_2)}{n_2}}]

 2) 모비율 차이의 검정

귀무가설 H_0:p_1 - p_2 = 0

표본의 크기가 충분히 크면 위와 같은 근사적인 분포를 얻고 귀무가설이 참이 경우 \dpi{100} p_1 = p_2이가 되므로 다음과 같은 검정 통계량이 나온다.

\dpi{100} Z_0 = \frac{\hat p_1 - \hat p_2}{\sqrt {\hat p_1(1-\hat p_1)/n_1 + \hat p_2(1-\hat p_2) /n_2)}} \sim N(0,1) | H_0

그러나 대개의 경우 합동표본비율 \dpi{100} \hat p = \frac{X_1 + X_2}{n_1 + n_2 }을 사용하여 검정통계량을 정의한다.

\dpi{100} Z_0 = \frac{\hat p_1 - \hat p_2}{\sqrt {\hat p(1-\hat p)(1/n_1+ 1/n_2)}} \sim N(0,1) | H_0

  1. \dpi{100} H_1: p_1 - p_2 > 0 \Rightarrow 기각역: \dpi{100} Z_0 > z_{1-\alpha}
  2. \dpi{100} H_1: p_1 - p_2 < 0 \Rightarrow 기각역: \dpi{100} Z_0 < z_\alpha = - z_{1-\alpha}
  3. \dpi{100} H_1: p_1 - p_2 > 0 \Rightarrow 기각역: \dpi{100} |Z_0| > z_{1-\alpha/2}

6. 모분산 비율에 대한 추론

* 두 정규모집단 표본분산비의 분포

두 정규모집단의 분산을 비교하고자 할 때, 크기의 차이를 비교하기보다는 비율을 비교하는 것이 바람직하다. F-분포는 이러한 목적으로 사용되는 통계량의 분포이다. 분산이 각각 \dpi{100} \sigma_1^2,~\sigma_2^2인 두 개의 독립적인 정규모집단으로부터 추출한 크기 \dpi{100} n_1,~n_2인 확률표본의 표본분산을 각각 \dpi{100} S_1^2,~S_2^2라 하면, 다음의 정리를 얻을 수 있다.

\dpi{100} \frac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} \sim F(n_1 -1, n_2 - 1)

 1) 모분산 비율의 추정

두 모집단이 정규분포를 따르고, 모분산을 각각 \dpi{100} \sigma_1^2 ,~\sigma_2^2라 하고 표본분산을 각각 \dpi{100} S_1^2, ~S_2^2라 하자. 누적확률 \dpi{100} p에 대응되는 자유도 \dpi{100} \nu_1,~ \nu_2인  F-분포의 분위수를 \dpi{100} F_{p;(\nu_1,\nu_2)}라 하면, \dpi{100} P(F_{\nu_1, \nu_2} \leq F_{p;(\nu_1, \nu_2)}) = p 이므로 \dpi{100} P(F_{\alpha/2;(\nu_1, \nu_2)} \leq F_{\nu_1, \nu_2 } \leq F_{1-\alpha/2;(\nu_1, \nu_2)}) = 1-\alpha 가 된다. 위의 표본분산비의 분포로부터 \dpi{100} \frac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} 는 \dpi{100} F(n_1-1,n_2-1) 분포를 따르므로 아래의 식이 성립한다.

\dpi{100} P(F_{\alpha/2;(\nu_1, \nu_2)} \leq \frac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} \leq F_{1-\alpha/2;(\nu_1, \nu_2)}) = 1-\alpha

따라서 두 정규 모집단의 모분산 비율 \dpi{100} \sigma_1^2 / \sigma_2^2에 대한 \dpi{100} 100(1-\alpha)% 신뢰구간은 다음과 같다.

\dpi{100} [\frac{S_1^2 /S_2^2}{F_{1-\alpha/2;(n_1-1, n_2-1)}}, \frac{S_1^2/S_2^2}{F_{\alpha/2;(n_1-1, n_2-1)}}]

 2) 모분산 비율의 검정

\dpi{100} \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\dpi{100} F(n_1-1, n_2-1) 분포를 따르는데, 귀무가설 \dpi{100} H_0 :\sigma_1^2 = \sigma_2^2 이 참이면 \dpi{100} \sigma_1^2 = \sigma_2^2이므로 검정통계량은 다으모가 같다.

\dpi{100} F_0 = \frac{S_1^2}{S_2^2} \sim F(n_1-1, n_2-1)|H_0

  1. \dpi{100} H_1: \sigma_1^2 > \sigma_2^2 \Rightarrow 기각역: \dpi{100} F_0 > F_{1-\alpha;(n_1-1, n_2-1)}
  2. \dpi{100} H_1: \sigma_1^2 < \sigma_2^2 \Rightarrow 기각역: \dpi{100} F_0 < F_{\alpha;(n_1-1, n_2-1)}
  3. \dpi{100} H_1: \sigma_1^2 \neq \sigma_2^2 \Rightarrow 기각역: \dpi{100} F_0 > F_{1-\alpha/2;(n_1-1, n_2-1)} 혹은 \dpi{100} F_0 < F_{\alpha/2;(n_1-1, n_2-1)}
카테고리: Statistics

0개의 댓글

답글 남기기

Avatar placeholder

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다