상관분석(correlation analysis)
상관분석
상관분석(correlation analysis)은 두 변수간의 선형관계를 계량적으로 분석하는 기법으로서, 상관계수를 추정하는 것이 첫 단계이다.
1. 상관계수의 추정
상관계수(correlation coefficient)는 두 확률변수 와
의 상관관계(선형관계)의 부호와 강약을 나타내는 척도이다.
와
의 공분산을
, 표준편차를 각각
라 하면, 상관계수는 다음과 같이 정의된다.
* 상관계수의 특성
의 범위는
이다.
- 두 변수가 서로 독립이면 두 변수간에 상관관계가 없으며,
이 된다.
이면 두 변수 간에 상관관계(선형관계)가 없다. 그러나 비선형관계는 있을 수 있기 때문에 두 변수가 서로 독립이라는 보장은 없다.
와
가 정규분포를 따르는 경우,
이면
와
는 독립이다.
표본상관계수는 표본을 통하여 상관계수를 추정하는 통계량으로서, Pearson의 상관계수라고도 한다. 두 확률변수 와
의 모집단으로부터
쌍의 확률표본
을 얻었을 때
와
의 표본상관계수(sample correlation coefficient)는 다음과 같이 정의된다.
여기서 는 다음과 같다.
* 표본상관계수의 특성
의 범위는
의 값이
또는
에 가까울수록 산점도 상의 점들이 직선에 가깝게 위치한다.
의 값이
또는
인 경우에는 산점도 상의 모든 점이 직선상에 놓이게 된다.
2. 상관관계 유무에 대한 검정
두 변수 간에 상관관계가 있는지에 대한 검정에서 귀무가설은 “두 변수 간에 상관관계가 없다”로 설정된다. 즉, 귀무가설 을 검정하는 것이다. 검정통계량은 다음과 같이 정의되며
와
가 정규분포를 따르는 경우 귀무가설 하에서 자유도
인 t-분포를 따른다.
- 대립가설
기각역:
- 대립가설
기각역:
- 대립가설
기각역:
3. 상관계수에 대한 검정
두 변수 간의 상관계수가 특정한 값과 같은지 판단해야 하는 경우가 있다.
귀무가설
검정통계량
- 대립가설
기각역:
- 대립가설
기각역:
- 대립가설
기각역: