상관분석(correlation analysis)
상관분석
상관분석(correlation analysis)은 두 변수간의 선형관계를 계량적으로 분석하는 기법으로서, 상관계수를 추정하는 것이 첫 단계이다.
1. 상관계수의 추정
상관계수(correlation coefficient)는 두 확률변수 와 의 상관관계(선형관계)의 부호와 강약을 나타내는 척도이다. 와 의 공분산을 , 표준편차를 각각 라 하면, 상관계수는 다음과 같이 정의된다.
* 상관계수의 특성
- 의 범위는 이다.
- 두 변수가 서로 독립이면 두 변수간에 상관관계가 없으며, 이 된다.
- 이면 두 변수 간에 상관관계(선형관계)가 없다. 그러나 비선형관계는 있을 수 있기 때문에 두 변수가 서로 독립이라는 보장은 없다.
- 와 가 정규분포를 따르는 경우, 이면 와 는 독립이다.
표본상관계수는 표본을 통하여 상관계수를 추정하는 통계량으로서, Pearson의 상관계수라고도 한다. 두 확률변수 와 의 모집단으로부터 쌍의 확률표본 을 얻었을 때 와 의 표본상관계수(sample correlation coefficient)는 다음과 같이 정의된다.
여기서 는 다음과 같다.
* 표본상관계수의 특성
- 의 범위는
- 의 값이 또는 에 가까울수록 산점도 상의 점들이 직선에 가깝게 위치한다.
- 의 값이 또는 인 경우에는 산점도 상의 모든 점이 직선상에 놓이게 된다.
2. 상관관계 유무에 대한 검정
두 변수 간에 상관관계가 있는지에 대한 검정에서 귀무가설은 “두 변수 간에 상관관계가 없다”로 설정된다. 즉, 귀무가설 을 검정하는 것이다. 검정통계량은 다음과 같이 정의되며 와 가 정규분포를 따르는 경우 귀무가설 하에서 자유도 인 t-분포를 따른다.
- 대립가설 기각역:
- 대립가설 기각역:
- 대립가설 기각역:
3. 상관계수에 대한 검정
두 변수 간의 상관계수가 특정한 값과 같은지 판단해야 하는 경우가 있다.
귀무가설
검정통계량
- 대립가설 기각역:
- 대립가설 기각역:
- 대립가설 기각역: