표본의 분포

표본의 분포

확률표본(random sample)

독립적이며 동일한 분포를 따르는(iid: independent and identically distributed) 확률변수들의 집합

  • 동일한 분포를 따라야 한다.
  • 독립적이어야 한다.

확률표본을 추출하는 이유

모집단의 모수들을 추정하여 모집단에 대해 의사결정을 내리는 데 사용하기 위해서
확률표본을 적절히 가공하여 통계량을 만들고, 이 통계량을 모수에 대한 추정량으로 사용한다.

Ex. 모집단의 평균 \dpi{100} \mu를 추정하기 위해 \dpi{100} n개의 샘플 \dpi{100} X_1, X_2, \cdots, X_n 을 추출하였다면 모평균 \dpi{100} \mu는 다음과 같이 표본평균으로 추정한다.

\dpi{100} \overline{X} = \frac{1}{n} \sum X_i

표본평균 \dpi{100} \overline{X}는 확률표본 \dpi{100} X_1, X_2, \cdots, X_n의 함수로서 새로운 확률변수이자 통계량이며, 모평균 \dpi{100} \mu에 대한 추정량이 된다.

통계량(statistic)

미지의(unknown) 모수를 포함하지 않는 확률표본의 함수

추정량(estimator)

미지의 모수를 추정하기 위한 통계량

아주 게으른 사람이 있어 확률표본 \dpi{100} X_1, X_2, \cdots, X_n 중 \dpi{100} X_1 하나만으로 모평균 \dpi{100} \mu를 추정한다해도 \dpi{100} X_1은 추정량이 된다. 다만, \dpi{100} X_1은 \dpi{100} \overline{X}에 비해 좋은 추정량이 못된다. 좋은 추정량이 되기 위한 가장 기본적인 요건 두 가지는 불편성과 최소분산이다.

불편성(unbiasedness)

추정량의 기댓값이 추정하고자 하는 모수와 같아지는 특성

Ex. 확률표본 \dpi{100} X_1, X_2, \cdots, X_n 기댓값이 \dpi{100} \mu, 분산이 \dpi{100} \sigma^2라 하고, 독립성을 이용하여 표본평균 \dpi{100} \overline{X}의 기댓값과 분산을 계산하면 다음과 같다.

\dpi{100} E(\overline{X}) = E(\frac{1}{n}\sum X_i) = \frac{1}{n}\sum E(X_i) = \frac{1}{n} \sum \mu = \mu

\dpi{100} Var(\overline{X}) = Var(\frac{1}{n}\sum X_i) = \frac{1}{n^2} \sum Var(X_i) = \frac{1}{n^2} Var(X_i) = \frac{\sigma^2}{n}

하지만 추정량 \dpi{100} X_1의 분산은 \dpi{100} \sigma^2이므로 최소가 되지 못한다.

표본분포(sampling distribution)

통계량은 확률변수들의 집단인 확률표본의 함수이다. 따라서 통계량 또한 확률변수로서의 확률분포를 갖는다. 이러한 통계량의 확률분포를 표본분포라 하며, 표본분포를 구하여 모수에 대한 추론(inference)을 하게 된다.

Write your comment Here