표본의 분포

확률표본(random sample)

독립적이며 동일한 분포를 따르는(iid: independent and identically distributed) 확률변수들의 집합

  • 동일한 분포를 따라야 한다.
  • 독립적이어야 한다.

확률표본을 추출하는 이유

모집단의 모수들을 추정하여 모집단에 대해 의사결정을 내리는 데 사용하기 위해서
확률표본을 적절히 가공하여 통계량을 만들고, 이 통계량을 모수에 대한 추정량으로 사용한다.

Ex. 모집단의 평균 \dpi{100} \mu를 추정하기 위해 \dpi{100} n개의 샘플 \dpi{100} X_1, X_2, \cdots, X_n 을 추출하였다면 모평균 \dpi{100} \mu는 다음과 같이 표본평균으로 추정한다.

\dpi{100} \overline{X} = \frac{1}{n} \sum X_i

표본평균 \dpi{100} \overline{X}는 확률표본 \dpi{100} X_1, X_2, \cdots, X_n의 함수로서 새로운 확률변수이자 통계량이며, 모평균 \dpi{100} \mu에 대한 추정량이 된다.

통계량(statistic)

미지의(unknown) 모수를 포함하지 않는 확률표본의 함수

추정량(estimator)

미지의 모수를 추정하기 위한 통계량

아주 게으른 사람이 있어 확률표본 \dpi{100} X_1, X_2, \cdots, X_n 중 \dpi{100} X_1 하나만으로 모평균 \dpi{100} \mu를 추정한다해도 \dpi{100} X_1은 추정량이 된다. 다만, \dpi{100} X_1은 \dpi{100} \overline{X}에 비해 좋은 추정량이 못된다. 좋은 추정량이 되기 위한 가장 기본적인 요건 두 가지는 불편성과 최소분산이다.

불편성(unbiasedness)

추정량의 기댓값이 추정하고자 하는 모수와 같아지는 특성

Ex. 확률표본 \dpi{100} X_1, X_2, \cdots, X_n 기댓값이 \dpi{100} \mu, 분산이 \dpi{100} \sigma^2라 하고, 독립성을 이용하여 표본평균 \dpi{100} \overline{X}의 기댓값과 분산을 계산하면 다음과 같다.

\dpi{100} E(\overline{X}) = E(\frac{1}{n}\sum X_i) = \frac{1}{n}\sum E(X_i) = \frac{1}{n} \sum \mu = \mu

\dpi{100} Var(\overline{X}) = Var(\frac{1}{n}\sum X_i) = \frac{1}{n^2} \sum Var(X_i) = \frac{1}{n^2} Var(X_i) = \frac{\sigma^2}{n}

하지만 추정량 \dpi{100} X_1의 분산은 \dpi{100} \sigma^2이므로 최소가 되지 못한다.

표본분포(sampling distribution)

통계량은 확률변수들의 집단인 확률표본의 함수이다. 따라서 통계량 또한 확률변수로서의 확률분포를 갖는다. 이러한 통계량의 확률분포를 표본분포라 하며, 표본분포를 구하여 모수에 대한 추론(inference)을 하게 된다.

카테고리: Statistics

0개의 댓글

답글 남기기

Avatar placeholder

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다