이산형 확률분포

이산형 확률분포1

이항분포 함수

#확률분포함수(x: 확률변수, size: 전체 표본 크기, prob: 성공확률)
dbinom(x, size, prob)

#누적분포함수(q: 분위수, lower.tail=TRUE: 아래로부터 누적)
pbinom(q, size, prob, lower.tail=TRUE)

#분위수 (p: 누적확률)
qbinom(p, size, prob, lower.tail=TRUE)

#이항 확률분포의 난수(n: 난수의 개수)
rbinom(n, size, prob)

 * 베르누이분포(Bernoulli distribution)

성공확률이 일정한 1회의 시행에서 나오는 성공 횟수의 확률분포

f(x) = p^x (1-p)^x ~~~~ x=0, 1

 

초기하분포(hypergeometric distribution)

두 가지 특성(성공 r개, 실패  N-r개)를 갖는 개체들로 구성된 크기 N인 유한 모집단에서 일정한 개수(n)의 표본을 비복원추출 했을 때, ‘성공’의 개수를 X라 하면, X는 초기하분포를 따른다.

X \sim HG(n, N, r)

f(x) = \binom{r}{x} \binom{N-r}{n-x} / \binom {N}{n}, ~~ max(0, n-N+r) \leq x \leq min(n,r)

#확률분포함수(x: 표본 성공 개수, r: 모집단 성공 개체수, n: 모집단 실패 개체 수, k: 표본 개수)
dhyper(x, r, n, k)

#누적분포함수 (q: 분위수)
phyper(q, r, n, k, lower.tail=T)

#분위수(p: 누적확률)
qhyper(p, r, n, k, lower.tail=T)

#초기하 확률변수(nn: 난수 개수)
rhyper(nn, r, n, k)

 

포아송 분포

이항분포에서 시행횟수 \small n은 점점 증가시키고 성공확률 \small p는 점점 감소시키되 기댓값 \small np를 일정한 값으로 유지시키면 포아송분포를 얻는다.

X \sim Poi(\lambda ) ~~~ \lambda = np

\lim_{n \rightarrow \infty }f(x) = \lim_{n \rightarrow \infty} \binom{n}{x}p^x (1-p)^{1-x}\\ = \lim_{n \rightarrow \infty } \frac{n!}{x!(n-x)!} p^x (1-p)^{1-x}\\ = \frac{1}{x!}\lim_{n \rightarrow \infty }\frac{n!}{(n-x)!}(\frac{\lambda}{n})^x(1-\frac{\lambda}{n})^{n-x}\\ =\frac{\lambda^x}{x!}\lim_{n \rightarrow \infty }\frac{n(n-1)\cdots(n-x+1)}{n ^x} (1-\frac{\lambda}{n})^n / (1-\frac{\lambda}{n})^x

앞의 식에서

\frac{n(n-1)\cdots(n-x+1)}{n^x} \rightarrow 1,~ (1-\frac{\lambda}{n})^n \rightarrow e^{-\lambda},~(1-\frac{\lambda}{n})^x \rightarrow 1

따라서

\lim_{n\rightarrow\infty}f(x) = \lambda^x \frac{e^{-\lambda}}{x!}, ~ x=0, 1, 2, \cdots

가 포아송분포의 확률분포함수가 된다.
포아송분포는 표본크기 \small n이 충분히 크고 성공확률 \small p가 충분히 작은 경우, 이항분포의 근사식으로 사용되기도 한다. 포아송분포를 따르는 확률변수의 예로는, 일정한 단위에서 발생하는 결점수, 특정 도로에서 하루동안 발생하는 교통사고횟수, 특정 전화기에 한 시간 동안에 걸려오는 전화통화 수, 한 주 동안에 특정 보험회사에서 접수되는 사망 보험금 청구건수, 특정 지역에서 하루 동안에 정전이 되는 횟수, 백과사전 한 페이지에 나타나는 오자의 수 등 다양하다. 다시 말해 포아송분포는 한정된 단위 시간이나 공간에서 발생하는 희소한 사건의 수를 표현하기에 적합하다.

#확률분포함수(lambda: 기댓값)
dpois(x, lambda)

#누적분포함수(q: 분위수)
ppois(q, lambda, lower.tail=T)

#분위수(p: 누적확률)
qpois(p, lambda, lower.tail=T)

#포아송 확률변수(n: 난수의 개수)
rpois(n, lambda)

 

기하분포

한 번의 시행에서 성공확률이 p인 경우, 첫 번째 성공이 발생할 때까지 시행하는 독립시행의 횟수를 X라 하면, 확률변수 X는 기하분포를 따른다.

X \sim G(p)

f(x) = P(X=x) = (1-p)^{x-1}p, ~~ x = 1, 2,\cdots

#확률분포함수(x: 실패 횟수, prob: 성공확률)
dgeom(x, prob)
#누적분포함수(q: 분위수, lower.tail=T: 아래로부터 누적) 
pgeom(q, prob, lower.tail=T)
#분위수(p: 누적확률)
qgeom(p, prob, lower.tail=T)
#기하 확률변수(n: 난수의 개수)
rgeom(n, prob)

 

음이항분포

기하분포의 개념을 보다 일반화해서 r번째 성공이 발생할 때까지 시행하는 독립시행의 횟수를 X라 하면, 확률변수 X는 음이항분포를 따른다.

X \sim NB(p,r)

x번째 시행에서 r번째 성공이 발생하려면 그 이전의 x-1 번의 시행에서 r-1 번의 성공이 나와야 하고 마지막 시행에서 성공이 나와야하기 때문이다.

f(x) = P(X=x) = \binom{x-1}{r-1}p^rq^{x-r}, ~~ x=r, r+1, \cdots

#확률분포함수(X: 실패횟수, size: 목표 성공 횟수, prob: 성공확률)
dnbinom(x, size, prob)
#누적분포함수(q: 분위수)
pnbinom(q, size, prob, lower.tail = T)
#분위수(p: 누적확률)
qnbinom(p, size, prob, lower.tail=T)
#음이항 확률변수(n: 난수의 개수)
rnbinom(n, size, prob)

X_1, X_2, \cdots, X_r 이 독립이고 동일한 기하분포를 따르는 확률변수일 때, X=\sum_{i=1}^r X_i의 분포는 음이항분포를 따른다. 그 이유는 X_i회 시행마다 한 번씩의 ‘성공’을 얻으므로 결국 마지막 X_r 회의 시행에서 r 번째 성공이 발생하기 때문이다.

 

1.
임태진. R-확률통계. 생능출판사; 2016.

Write your comment Here