1. 통계적 추정

구간추정

추정량은 확률변수로서 모수의 참값과 정확히 일치하는 점추정 값이 나온다는 보장이 없다.
따라서 모수의 참값을 포함하는 구간을 결정하는 것이 의사결정에 더 도움이 된다.

  • 신뢰구간(confidence interval): 모수의 참값을 포함하는 구간
  • 유의수준(significance level, \dpi{100} \alpha): 모수의 참값을 포함하지 못할 확률(ex. 0,05와 같이 작은 값으로 지정)
  • 유의수준 \dpi{100} \alpha가 정해지면  \inline \dpi{100} P(\widehat{\theta_L} < \theta < \widehat{\theta_U}) = 1-\alpha를 만족하는 신뢰구간 \dpi{100} [\widehat\theta_L, \widehat\theta_R]을 구한다.
  • 여기서 \dpi{100} 1-\alpha를 신뢰수준(confidence level)이라 한다.

가설검정

귀무가설(null hypothesis)

주로 \dpi{100} H_0으로 나타냄. 기존의 통념을 나타내는 가설. 기각할만한 명백한 사유가 입증되지 않는한 채택

대립가설(alternative hypothesis)

주로 \dpi{100} H_1으로 나타냄. 표본 데이터로부터 확실한 증거가 제시되어야 채택되는 가설

귀무가설의 채택

  • 가설검정의 결과는 귀무가설을 위주로 나타내는데, 귀무가설을 ‘채택(accept)’하거나 ‘기각(reject)’하거나 둘 중의 하나로 결론을 내린다. 귀무가설을 채택한다는 것은 귀무가설이 옳다는 뜻이 아니라 귀무가설을 기각할만한 충분한 증거가 없다는 의미이다.
  • 이 경우에는 새로이 입증되는 사실이 없기 때문에 없던 일로 동라간다는 소극적인 의미로서 ‘귀무(null)’라는 용어가 사용된 것이다.
  • 예컨대, 박사과정 학생이 귀무가설을 채택한 결과만을 내놓는다면 졸업은 물 건너간 것이라고 볼 수 있다.

귀무가설의 기각

  • 귀무가설을 기각한다는 것은 새로운 주장, 즉 대립가설을 입증할 만한 충분한 증거가 있다는 적극적인 의미를 갖는다.

제 1종 오류(type 1 error)

  • 맞는 귀무가설을 기각하는 오류
  • 새로운 주장이 틀린데도 받아들이는 오류

제 2종 오류(type 2 error)

  • 틀린 귀무가설을 채택하는 오류
  • 새로운 주장이 맞는데도 인정하지 않는 오류

통계학에서는 제1종 오류를 더 심각하게 받아들인다. 따라서 가설검정에서 제1종 오류가 발생할 확률을 유의수준 \dpi{100} \alpha 이하로 유지하도록 검정방법을 설계한다. 유의수준을 만족하면서 제2종 오류가 발생할 확률 \dpi{100} \beta가 더 작은 가설검정 방법이 더 좋은 것으로 인정된다.

가설검정과 재판검정

사람은 특별한 증거가 없는 한 무죄이다.
* 귀무가설 = 무죄

확실한 증거가 나오면 유죄이다.
* 대립가설 = 유죄

유죄인 사람을 무죄로 선고하는 것(제2종 오류)도 심각한 오류이지만, 무죄인 사람을 유죄로 선고하는 것(제1종 오류)이 보다 치명적이다.

귀무가설이 맞음(무죄) 대립가설이 맞음(유죄)
귀무가설 채택
(무죄 선고)
옳은 결정 제2종 오류
귀무가설 기각
(유죄 선고)
제1종 오류 옳은 결정

 

  • 검정통계량(test statistic) 가설검정을 위해 사용되는 통계량
  • 기각역(rejection area) 귀무가설을 기각하는 검정통계량의 영역
  • 임계점(critical point), 기각치(critical value) 기각역의 경계치

따라서 검정통계량이 임계점을 넘어 기각역에 위치하면 귀무가설을 기각하고, 그렇지 않으면 귀무가설을 채택한다.

<통계적 가설검정절차>

  1. 귀무가설 설정 \dpi{100} H_0 : ~\theta = \theta_0
  2. 대립가설 설정 \dpi{100} H_1 : ~\theta < \theta_0 또는 \dpi{100} \theta > \theta_0 또는 \dpi{100} \theta \neq \theta_0
  3. 유의수준 \dpi{100} \alpha 설정
  4. 검정통계량과 기각역 설정
  5. 관측된 표본 데이터로부터 검정통계량의 관측치 계산
  6. 귀무가설(\dpi{100} H_0) 채택 또는 기각 결정

 

2. 모평균에 대한 추론

 1) 모분산을 아는 경우

모분산을 아는 경우의 추정

모평균 \dpi{100} \mu의 점추정량으로는 불편성과 최소분산을 만족하는 추정량 \dpi{100} \overline X를 사용하는 것이 보편적

\dpi{100} Z = \frac{\overline X - \mu}{\sigma \sqrt n}

모집단이 정규분포를 따른다면 표준화된 통계량 \dpi{100} Z는 표준정규분포를 따르고, 모집단이 정규분포를 따르지 않는다 해도 표본의 크기가 충분히 크다면 중심극한정리에 의해 근사적으로 표준정규분포르 ㄹ따른다. 따라서 표준정규분포에서 \dpi{100} \Phi(z_p) = P(Z \leq z_p) = p를 만족하는 값을 \dpi{100} z_p라 하면 \dpi{100} P(z_{\alpha/2} \equiv -z_{1-\alpha/2} < Z < z_{1-\alpha/2}) = 1-\alpha 가 된다.

모평균의 신뢰구간

정규 모집단의 모평균 \dpi{100} \mu에 대한 신뢰수준 \dpi{100} 1-\alpha 에 신뢰구간은 다음과 같다. 이를 \dpi{100} 100(1-\alpha) \% 신뢰구간이라고도 한다.

\dpi{100} [\overline X - z_{1-\alpha/2} \frac{\sigma}{\sqrt n}, \overline X + z_{1-\alpha/2}\frac{\sigma}{\sqrt n}] = [\overline X \pm z_{1-\alpha/2} \frac{\sigma}{\sqrt n}]

\dpi{100} P(\overline X - z_{1-\alpha/2} \frac{\sigma}{\sqrt n} < \mu < \overline X + z_{1-\alpha/2} \frac{\sigma}{\sqrt n}) = 1-\alpha

\dpi{100} z_{1-\alpha/2}\frac{\sigma}{\sqrt n} 를 신뢰구간의 오차라고 한다.

모분산을 아는 경우의 검정

기존에 인정되던 모평균 값을 \dpi{100} \mu_0라 하면, 귀무가설 \dpi{100} H_0 : ~\mu = \mu_0 하에서 검정통계량은 다음과 같이 설정된다.
\dpi{100} Z_0 = \frac{\overline X - \mu_0}{\sigma \sqrt n}

  1. \dpi{100} H_1: \mu > \mu_0 \Rightarrow 기각역: \dpi{100} Z_0 > z_{1-\alpha}
  2. \dpi{100} H_1: \mu < \mu_0 \Rightarrow 기각역: \dpi{100} Z_0 < z_\alpha = - z_{1-\alpha}
  3. \dpi{100} H_1: \mu \neq \mu_0 \Rightarrow 기각역: \dpi{100} |Z_0| > z_{1-\alpha/2}

 2) 모분산을 모르는 경우

모분산을 모르는 경우의 추정

모분산을 모르지만 모집단이 정규분포를 따르거나 중심극한 정리를 적용할 수 있는 경우, t-분포를 이용하여 신뢰구간을 구할 수 있다. 자유도 \dpi{100} \nu인 t-분포를 따르는 확률변수를 \dpi{100} T_\nu라 하고, p-분위수를 \dpi{100} t_{p;\nu} 라 하면 \dpi{100} P(T_\nu \leq t_{p;\nu})=p 이므로, \dpi{100} P(-t{p;\nu} \leq T_\nu \leq t_{p;\nu}) = p -(1-p) = 2p-1 이다. 확률변수 \dpi{100} T = \frac{\overline X - \mu}{S/\sqrt n} 로 정의하면, \dpi{100} T는 자유도 \dpi{100} (n-1)인 t-분포를 따르므로, \dpi{100} p = 1-\alpha/2 로 하면 다음과 같이 신뢰구간을 얻을 수 있다.

모평균의 신뢰구간(모분산을 모르는 경우)

모분산을 모르는 경우, 정규 모집단의 모평균 \dpi{100} \mu에 대한 \dpi{100} 100(1-\alpha)\% 신뢰구간은 다음과 같다.

\dpi{100} [\overline X - t_{1-\alpha/2;(n-1)}\frac{S}{\sqrt n},~ \overline X + t_{1-\alpha/2;(n-1)}\frac{S}{\sqrt n}] = [\overline X \pm t_{1-\alpha/2;(n-1)}\frac{S}{\sqrt n}]

모분산을 모르는 경우의 검정

표본분산을 구하여 모분산을 대체한다. 귀무가설 \dpi{100} H_0:~\mu = \mu_0 하에서 검정통계량은 다음과 같이 설정된다.

\dpi{100} T_0 = \frac{\overline X - \mu_0}{S/\sqrt n} \sim t(n-1) | H_0

  1. \dpi{100} H_1: \mu > \mu_0 \Rightarrow 기각역: \dpi{100} T_0 > t_{1-\alpha;n-1}
  2. \dpi{100} H_1: \mu < \mu_0 \Rightarrow 기각역: \dpi{100} T_0 < t_{\alpha;n-1} = -t_{1-\alpha;n-1}
  3. \dpi{100} H_1: \mu \neq \mu_0 \Rightarrow 기각역: \dpi{100} |T_0| > t_{1-\alpha/2;n-1}

 

3. 모비율에 대한 추론

 1) 모비율의 추정

모비율을 성공확률 \dpi{100} p라 간주하면, \dpi{100} n개의 표본에서 나온 성공 횟수 \dpi{100} X의 분포는 이항분포 \dpi{100} B(n, p)를 따른다. \dpi{100} X의 기댓값은 \dpi{100} E(X) = np이므로, 모비율 \dpi{100} p의 불편추정량 \dpi{100} \widehat{p} = X/n을 얻는다. \dpi{100} X의 분산은 \dpi{100} V(X)=np(1-p)이므로 중심극한 정리를 적용하면

\dpi{100} \frac{X-np}{\sqrt{np(1-p)}} = \frac{\widehat p - p}{\sqrt{p(1-p)/n}} \sim N(0, 1)

따라서 모비율 \dpi{100} p에 대한 \dpi{100} 100(1-\alpha)\% 근사 신뢰구간은 다음과 같다.

\dpi{100} [\widehat p \pm z_{1-\alpha/2}\sqrt{\frac{\widehat p (1-\widehat p)}{n}}]

사실 이 경우는 모평균에 대한 추론에서 모분산을 모르는 경우와 같다. 위 식에서 표준편차는 사실 \dpi{100} \sqrt {\frac{p(1-p)}{n}} 이어야 하겠지만, 모비율의 참값 \dpi{100} p를 모르므로, 점추정치 \dpi{100} \widehat p를 이용한다.

적당한 표본의 개수

신뢰구간 오차를 일정 수준 이하로 유지하기 위해서는 적당한 개수 이상의 표본이 필요하다. \dpi{100} 100(1-\alpha)\% 확신 하에 오차를 \dpi{100} \delta 이하로 유지하려면 \dpi{100} z_{1-\alpha/2}\sqrt{\widehat p (1-\widehat p)/n} \leq \delta 가 되는데 이 때 가장 보수적으로 오차를 죄대로 하는 \dpi{100} p* = \frac{1}{2} 을 대입하여 위 부등식을 만족시키는 표본의 개수를 구한다.

 2) 모비율의 검정

모비율을 \dpi{100} p라 하면, 귀무가설은 \dpi{100} H_0 :~ p=p_0로 설정되고, 대립가설은 \dpi{100} H_1:~p <p_0,~H_1: ~ p> p_0, ~H_1: ~p \neq p_0 중 하나가 된다.

p-값(p-value)

관측된 검정통계량을 근거로 귀무가설을 기각했을 때 틀릴 확률. 이는 제1종 오류의 확률이므로 유의수준 \dpi{100} \alpha 이하여야 한다. 즉, \dpi{100} p 값이 \dpi{100} \alpha 이하일 때 귀무가설을 기각한다.
검정 통계량의 현재 관측치를 근거로 귀무가설을 기각했을 때 틀릴 확률, 즉 귀무가설이 참인데도 우연히 검정통계량이 현재 관측치 이상(또는 이하)으로 벗어날 확률

  (1) 표본이 크지 않은 경우

\dpi{100} H = H_0, 성공 횟수의 관측치: \dpi{100} x

  1. \dpi{100} H_1: p > p_0 \Rightarrow 기각역: \dpi{100} P(X \geq x | H_0) \leq \alpha
  2. \dpi{100} H_1: p < p_0 \Rightarrow 기각역: \dpi{100} P(X \leq x | H_0) \leq \alpha
  3. \dpi{100} H_1: p \neq p_0 \Rightarrow 기각역: \dpi{100} min [P(X \leq x | H_0), ~P(X \geq x | H_0) ] \leq \alpha/2

표본이 크지 않은 경우, 모비율에 대한 검정 절차에서 기각역을 정하는 대신, 검정통계량인 성공 횟수의 관측치에 대응하는 \dpi{100} p 값을 계산하고 이를 유의수준 \dpi{100} \alpha와 비교하여 귀무가설의 채택, 기각 여부를 결정한다.

  (2) 표본이 큰 경우

모비율 검정에서 표본의 크기가 크면 이항분포를 이용하여 \dpi{100} p 값을 계산하기 어렵게 된다. 그러나 이항분포의 정규근사가 가능하므로 성공 횟수 \dpi{100} X를 표준화하여 다음과 같은 검정 통계량을 사용할 수 있다.

\dpi{100} Z_0 = \frac{X-np_0}{\sqrt{np_0(1-p_0)}} = \frac{X/n - p_0}{\sqrt{p_0 (1-p_0)/n}} \sim N(0,~1) | H_0

\dpi{100} H_0 :~p=p_0

  1. \dpi{100} H_1: p > p_0 \Rightarrow 기각역: \dpi{100} Z_0 > z_{1-\alpha}
  2. \dpi{100} H_1: p < p_0 \Rightarrow 기각역: \dpi{100} Z_0 < z_{1-\alpha} = -z_{1-\alpha}
  3. \dpi{100} H_1: p \neq p_0 \Rightarrow 기각역: \dpi{100} |Z_0| > z_{1-\alpha/2}

 

4. 모분산에 대한 추론

모분산이 \dpi{100} \sigma^2인 정규모집단에서 \dpi{100} n개의 표본을 추출하여 표본분산 \dpi{100} S^2을 구하면, \dpi{100} (n-1)S^2/\sigma^2는 자유도 \dpi{100} n-1인 카이제곱분포를 따른다.

 1) 모분산의 추정

카이제곱분포의 분위수 \dpi{100} \chi ^2 _{p;\nu}는 누적확률 \dpi{100} P(\chi^2 _\nu \leq \chi^2 _{p;\nu}) = p를 만족하는 값으로 정의된다. 따라서 \dpi{100} P(\chi^2 _{\alpha/2;\nu} \leq \chi^2_\nu \leq \chi^2 _ {1-\alpha/2;\nu})= 1-\alpha가 되므로, \dpi{100} P(\chi^2 _{\alpha/2;\nu} \leq \frac{(n-1)S^2}{\sigma^2} \leq \chi^2 _ {1-\alpha/2;\nu})= 1-\alpha 로부터 다음과 같은 신뢰구간을 구할 수 있다.

정규 모집단의 모분산 \dpi{100} \sigma^2에 대한 \dpi{100} 100(1-\alpha)\% 신뢰구간은 다음과 같다.

\dpi{100} [\frac{(n-1)S^2}{\chi^2 _{1-\alpha/2;n-1}},~ \frac{(n-1)S^2}{\chi^2 _{\alpha/2;n-1}}]

 2) 모분산의 검정

귀무가설 \dpi{100} H_0:~\sigma^2 = \sigma^2_0

검정통계량 \dpi{100} \chi^2 _0 = \frac{(n-1)S^2}{\sigma_0^2} = \frac{\sum ^n _{i=1} (X_i - \overline X)^2}{\sigma_0^2}

  1. \dpi{100} H_1 :~\sigma^2 > \sigma_0^2 \Rightarrow 기각역: \dpi{100} \chi_0^2 > \chi^2_{1-\alpha;n-1}
  2. \dpi{100} H_1 :~\sigma^2 < \sigma_0^2 \Rightarrow 기각역: \dpi{100} \chi_0^2 < \chi^2_{1-\alpha;n-1}
  3. \dpi{100} H_1 :~\sigma^2 \neq \sigma_0^2 \Rightarrow 기각역: \dpi{100} \chi_0^2 > \chi^2_{1-\alpha;n-1}, 혹은 \dpi{100} \chi_0^2 < \chi^2_{1-\alpha;n-1}
카테고리: Statistics

0개의 댓글

답글 남기기

Avatar placeholder

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다