상관분석(correlation analysis)

상관분석

상관분석(correlation analysis)은 두 변수간의 선형관계를 계량적으로 분석하는 기법으로서, 상관계수를 추정하는 것이 첫 단계이다.

1. 상관계수의 추정

상관계수(correlation coefficient)는 두 확률변수 \dpi{100} X와 \dpi{100} Y의 상관관계(선형관계)의 부호와 강약을 나타내는 척도이다. \dpi{100} X와 \dpi{100} Y의 공분산을 \dpi{100} Cov(X, Y)= \sigma_{XY}, 표준편차를 각각 \dpi{100} \sigma_X, ~\sigma_Y라 하면, 상관계수는 다음과 같이 정의된다.

\dpi{100} \rho _{XY} = Corr(X, Y) = \frac{Cov(X, Y)}{\sigma_X \sigma_Y} = \frac{\sigma_{XY}}{\sigma_X \sigma_Y}

 * 상관계수의 특성

  1. \dpi{100} \rho_{XY}의 범위는 \dpi{100} -1 \leq \rho_{XY} \leq 1이다.
  2. 두 변수가 서로 독립이면 두 변수간에 상관관계가 없으며, \dpi{100} \rho_{XY} =0이 된다.
  3. \dpi{100} \rho_{XY}=0이면 두 변수 간에 상관관계(선형관계)가 없다. 그러나 비선형관계는 있을 수 있기 때문에 두 변수가 서로 독립이라는 보장은 없다.
  4. \dpi{100} X와 \dpi{100} Y가 정규분포를 따르는 경우, \dpi{100} \rho_{XY}=0이면 \dpi{100} X와 \dpi{100} Y는 독립이다.

표본상관계수는 표본을 통하여 상관계수를 추정하는 통계량으로서, Pearson의 상관계수라고도 한다. 두 확률변수 \dpi{100} X와 \dpi{100} Y의 모집단으로부터 \dpi{100} n쌍의 확률표본 \dpi{100} (X_1, Y_1), (X_2, Y_2), \cdots, (X_n, Y_n)을 얻었을 때  \dpi{100} X와 \dpi{100} Y의 표본상관계수(sample correlation coefficient)는 다음과 같이 정의된다.

\dpi{100} r_{XY} = \frac{S_{XY}}{\sqrt{S_{XX}S_{YY}}}

여기서 \dpi{100} S는 다음과 같다.

  1. \dpi{100} S_{XX} = \sum^n_{i=1}(X_i - \overline X)^2 = \sum^n_{i=1} X_i^2 - \frac{(\Sigma^n_{i=1} X_i)^2}{n}
  2. \dpi{100} S_{YY} = \sum^n_{i=1}(Y_i - \overline Y)^2 = \sum^n_{i=1} Y_i^2 - \frac{(\Sigma^n_{i=1} Y_i)^2}{n}
  3. \dpi{100} S_{XY} = \sum^n_{i=1}(X_i - \overline X)(Y_i - \overline Y) = \sum^n_{i=1} X_iY_i - \frac{(\Sigma^n_{i=1} X_i)(\Sigma^n_{i=1} Y_i)}{n}

 * 표본상관계수의 특성

  1. \dpi{100} r_{XY}의 범위는 \dpi{100} -1 \leq r_{XY} \leq 1
  2. \dpi{100} r_{XY}의 값이 \dpi{100} +1 또는 \dpi{100} -1에 가까울수록 산점도 상의 점들이 직선에 가깝게 위치한다.
  3. \dpi{100} r_{XY}의 값이 \dpi{100} +1 또는 \dpi{100} -1인 경우에는 산점도 상의 모든 점이 직선상에 놓이게 된다.

2. 상관관계 유무에 대한 검정

두 변수 간에 상관관계가 있는지에 대한 검정에서 귀무가설은 “두 변수 간에 상관관계가 없다”로 설정된다. 즉, 귀무가설 \dpi{100} H_0:~\rho_{XY} = 0을 검정하는 것이다. 검정통계량은 다음과 같이 정의되며 \dpi{100} X와 \dpi{100} Y가 정규분포를 따르는 경우 귀무가설 하에서 자유도 \dpi{100} (n-2)인 t-분포를 따른다.

\dpi{100} T_0 = r_{XY} \sqrt{\frac{n-2}{1-r^2_{XY}}} \sim t(n-2) | H_0

  1. 대립가설 \dpi{100} H_1:~\rho_{XY} > 0 \Rightarrow 기각역: \dpi{100} T_0 > t_{1-\alpha; n-2}
  2. 대립가설 \dpi{100} H_1:~\rho_{XY} < 0 \Rightarrow 기각역: \dpi{100} T_0 < t_{\alpha; n-2} = -t_{1-\alpha; n-2}
  3. 대립가설 \dpi{100} H_1:~\rho_{XY} \neq 0 \Rightarrow 기각역: \dpi{100} |T_0| > t_{1-\alpha/2; n-2}

3. 상관계수에 대한 검정

두 변수 간의 상관계수가 특정한 값과 같은지 판단해야 하는 경우가 있다.

귀무가설 \dpi{100} H_0:~ \rho_{XY} = \rho_0

검정통계량 \dpi{100} Z_0 = \sqrt(n-3)[\frac{1}{2}ln(\frac{l+r_{XY}}{1-r_{XY}})- \frac{1}{2}ln(\frac{l+\rho_0}{1-\rho_0})] \sim N(0, 1)

  1. 대립가설 \dpi{100} H_1:\rho_{XY} > \rho_0 \Rightarrow 기각역: \dpi{100} Z_0 > z_{1-\alpha}
  2. 대립가설 \dpi{100} H_1:\rho_{XY} < \rho_0 \Rightarrow 기각역: \dpi{100} Z_0 < z_{\alpha} = - z_{1-\alpha}
  3. 대립가설 \dpi{100} H_1:\rho_{XY} \neq \rho_0 \Rightarrow 기각역: \dpi{100} |Z_0| > z_{1-\alpha/2}

Write your comment Here