단순회귀분석

회귀분석 회귀분석에서는 원인이 되는 변수와 결과로 나타나는 변수를 구분한다. 결과에 영향을 미칠 것으로 예상되는 변수를 독립변수, 설명변수 또는 예측변수라 한다. 반면에, 독립변수의 영향을 받는 변수를 종속변수 또는 반응변수라 한다. 회귀분석에서는 경험이나 예비실험을 통하여 독립변수와 종속변수 간의 함수관계(또는 모형)를 수립한다. 이를 회귀식이라 하며, 개념적으로 로 나타낼 수 있다. 다음으로 실험이나 관측을 통해 얻은 확률표본을 통하여 회귀식의 모수 값을 추정한다. 예컨대 라면, […]

상관분석(correlation analysis)

상관분석 상관분석(correlation analysis)은 두 변수간의 선형관계를 계량적으로 분석하는 기법으로서, 상관계수를 추정하는 것이 첫 단계이다. 1. 상관계수의 추정 상관계수(correlation coefficient)는 두 확률변수 와 의 상관관계(선형관계)의 부호와 강약을 나타내는 척도이다. 와 의 공분산을 , 표준편차를 각각 라 하면, 상관계수는 다음과 같이 정의된다.  * 상관계수의 특성 의 범위는 이다. 두 변수가 서로 독립이면 두 변수간에 상관관계가 없으며, 이 된다. 이면 두 변수 간에 상관관계(선형관계)가 없다. 그러나 […]

일원분산분석

분산분석 분산분석(Analysis of Variance: ANOVA)에서는 어떤 요인이 반응치에 영향을 주는지 분석하는 것이 주요목적이 된다. 1. 분산분석의 개념 요인(factor, 인자) 반응치에 영향을 미칠 것으로 예상되는 원인들 중 분석에서 고려되는 원인. 회귀분석의 독립변수 수준(level) 실험 또는 관측에서 선별된 요인의 값 반응치(response value) 요인의 각 수준에서 얻어진 종속변수의 관측치 예를 들어, 화학프로세스에서 온도를 100℃, 150℃, 200℃로, 압력을 1기압, […]

범주형 데이터 분석

범주형 데이터(categorical data) 범주형 데이터는 속성을 구분하는 데이터로서, 요인(factor) 별로 집계하여 표 형태로 요약할 수 있다. 범주형 데이터에는 순서가 없는 명목형(norminal) 데이터와, 순서가 있는 순위형(ordinal) 데이터로 구분된다. 1. 적합도 검정(goodness of fit test) 적합도 검정은 관측이나 실험을 통해 얻어진 표본 데이터의 분포가 특정 형태의 분포와 일치하는지 알아보고 하는 검정 방법으로서, 범주형 데이터의 관측치와 기댓값과의 차이를 […]

두 모집단에 대한 추론

1. 모평균 차이에 대한 추론(모분산을 아는 경우)  1) 모평균 차이의 추정 모분산을 아는 경우, 두 정규 모집단의 모평균 차이 에 대한 신뢰구간은 다음과 같다.  2) 모평균 차이의 검정 귀무가설  검정통계량   기각역:  기각역: 기각역: 2. 모평균 차이에 대한 추론(모분산을 모르지만 같은 경우)  1) 모평균 차이의 추정 모분산을 모르지만 같다고 볼 수 있느 ㄴ경우, 두 정규 모집단의 모평균 차이  에 […]

단일 모집단에 대한 추론

1. 통계적 추정 구간추정 추정량은 확률변수로서 모수의 참값과 정확히 일치하는 점추정 값이 나온다는 보장이 없다. 따라서 모수의 참값을 포함하는 구간을 결정하는 것이 의사결정에 더 도움이 된다. 신뢰구간(confidence interval): 모수의 참값을 포함하는 구간 유의수준(significance level, ): 모수의 참값을 포함하지 못할 확률(ex. 0,05와 같이 작은 값으로 지정) 유의수준 가 정해지면  를 만족하는 신뢰구간 을 구한다. 여기서 를 신뢰수준(confidence level)이라 한다. 가설검정 귀무가설(null […]

표본의 분포

표본의 분포 확률표본(random sample) 독립적이며 동일한 분포를 따르는(iid: independent and identically distributed) 확률변수들의 집합 동일한 분포를 따라야 한다. 독립적이어야 한다. 확률표본을 추출하는 이유 모집단의 모수들을 추정하여 모집단에 대해 의사결정을 내리는 데 사용하기 위해서 확률표본을 적절히 가공하여 통계량을 만들고, 이 통계량을 모수에 대한 추정량으로 사용한다. Ex. 모집단의 평균 를 추정하기 위해 개의 샘플  을 추출하였다면 모평균 는 다음과 같이 표본평균으로 추정한다. […]

정규분포

정규분포 기댓값을 중심으로 대칭이며, 중심위치는 기댓값, 산포는 표준편차에 의해 결정되는 엎어놓은 종 모양의 분포 표준정규분포 기댓값이 0, 표준편차가 1인 정규분포를 표준정규분포라 한다. 표준정규분포의 확률밀도함수는  인 경우이다. 누적확률: 표준정규분포에서 주어진 값  이하의 확률 분위수: 누적확률이 가 되는 표준정규분포 분위수 모멘트생성함수   정규분포의 가법성  이고 와 가 독립이면,  이다. 즉, 독립적으로 정규분포를 따르는 확률변수들의 합은 또 다른 정규분포를 따른다.  

카이제곱분포, t-분포, F-분포

카이제곱분포, t-분포, F-분포 카이제곱분포 표준정규분포를 따르는 확률표본을 제곱해서 합한 확률변수의 분포 표준정규모집단으로부터 추출된 확률표본을  이라 하면,  는 자유도가 인 카이제곱분포를 따른다. #카이제곱분포의 확률밀도함수(df: 자유도, ncp: 비중심모수(사용하지 않음)) dchisq(x, df, ncp = 0) #카이제곱분포의 누적분포함수 F(x) pchisq(x, df, ncp = 0, lower.tail=T) #카이제곱분포의 분위수(p: 누적확률) qchisq(p, df, ncp = 0, lower.tail = T) #카이제곱분포의 확률변수(n: 난수의 개수) rchisq(n, df, […]

연속형 확률분포

연속형 확률분포1 지수분포 확률밀도함수가 지수적으로 감소하는 확률분포 #확률밀도함수 f(x) (rate: lambda, 초기치: rate=1) dexp(x, rate) #누적분포함수 F(x) pexp(x, rate, lower.tail=T) #분위수 (p: 누적확률) qexp(p, rate, lower.tail=T) #지수 확률변수(n: 난수의 개수) rexp(n, rate) * 지수분포의 비기억(memoryless) 특성 이산형분포 중 비기억 특성을 갖는 분포는 기하분포이다. 어떤 제품의 수명이 지수분포를 따른다면, 비기억 특성에 의해 ‘이 제품이 시간 작동했다는 조건 […]