단순회귀분석

회귀분석

회귀분석에서는 원인이 되는 변수와 결과로 나타나는 변수를 구분한다. 결과에 영향을 미칠 것으로 예상되는 변수를 독립변수, 설명변수 또는 예측변수라 한다. 반면에, 독립변수의 영향을 받는 변수를 종속변수 또는 반응변수라 한다.

회귀분석에서는 경험이나 예비실험을 통하여 독립변수와 종속변수 간의 함수관계(또는 모형)를 수립한다. 이를 회귀식이라 하며, 개념적으로 \dpi{100} Y=f(X)로 나타낼 수 있다. 다음으로 실험이나 관측을 통해 얻은 확률표본을 통하여 회귀식의 모수 값을 추정한다. 예컨대 \dpi{100} Y=f(X)=a+bX라면, 회귀계수 \dpi{100} a, ~b를 추정하는 것이다. 추정된 회귀식을 사용하여 독립변수가 종속변수에 미치는 영향을 분석하고, 독립변수의 값으로 종속변수의 값을 예측하며, 다양한 통계적 추론을 수행한다.

회귀분석의 유형은 매우 다양하지만, 기본적인 유형은 다음과 같이 구분할 수 있다.

  1. 단순회귀분석(simple regression analysis)
    하나의 독립변수로 하나의 종속변수를 설명하는 모형이다. 예를 들면, 아버지의 키로 한 자녀의 키를 설명하는 경우에 해당한다.
  2. 다중회귀분석(multiple regression analysis)
    두 개 이상의 독립변수로 하나의 종속변수를 설명하는 모형이다. 예를 들면, 아버지와 어머니의 키로 한 자녀의 키를 설명하는 경우에 해당한다.
  3. 곡선회귀분석(curvilinear regression analysis)
    독립변수와 종속변수의 관계를 2차 이상의 함수로 설명하는 모형이다. 예를 들면, \dpi{100} y=a+bx+cx^2과 같은 함수관계를 들 수 있다. 결국 다중회귀분석 기법을 사용하게 되지만, 독립변수 간의 종속성에 주의할 필요가 있다.
  4. 다변량회귀분석(multivariate regression analysis)
    두 개 이상의 종속변수를 사용하는 모형으로서, 예를 들면, 아버지와 어머니의 키로 두 자녀의 키를 설명하는 경우에 해당한다.

단순회귀분석

단순회귀에서는 독립변수의 수준 \dpi{100} x_1, x_2, \cdots, x_n에서 측정되는 종속변수 \dpi{100} y_1, y_2, \cdots, y_n에 대하여 아래의 단순선형회귀 모형이 성립한다고 가정한다. 종속변수는 변량이므로 대문자로 표기하는 것이 원칙이지만 일단은 소문자로 표기한다.

\dpi{100} y_i = \beta_0 + \beta_1x_i + \epsilon_i, ~i=1,2,\cdots,n

여기서 절편 \dpi{100} \beta_0와 기울기 \dpi{100} \beta_1을 회귀계수(regression coefficient)라 하며, 오차항(error term) \dpi{100} \epsilon_i들은 서로 독립이고 \dpi{100} N(0, \sigma^2) 분포를 따른다고 가정한다.

위의 단순선형회귀 모형으로부터 다음과 같은 특성을 찾아볼 수 있다.

  1. \dpi{100} E(\epsilon_i) = 0이므로 \dpi{100} E(y_i) = E(\beta_0 + \beta_1x_i + \epsilon_i) = \beta_0 + \beta_1x_i가 된다.
  2. \dpi{100} Var(y_i) = Var(\beta_0 + \beta_1 x_i + \epsilon_i) = Var(\epsilon_i) = \sigma^2
  3. \dpi{100} \epsilon_i들이 서로 독립이므로 \dpi{100} y_i들도 서로 독립이다.
  4. 종합하면, 종속변수 \dpi{100} y_i들은 독립적으로 \dpi{100} N(\beta_0+\beta_1x_i, \sigma^2) 분포를 따른다.

회귀계수 \dpi{100} \beta_0, \beta_1의 추정치를 \dpi{100} \hat \beta_0 ,\hat\beta_1이라 하면, 다음과 같은 단순선형회귀 추정 모형을 얻는다.

\dpi{100} y_i = \hat y_i + e_i = \hat \beta_0 + \hat \beta_1x_i + e_i, ~ i=1,2,\cdots,n

여기서 \dpi{100} e_i들은 잔차(residual)라 하며, 오차의 관측치에 해당한다. 잔차들의 특성을 분석하면 오차에 대한 가정이 타당한지 판단할 수 있다.

1. 회귀계수의 추정

회귀계수의 추정에 보편적으로 사용되는 방법은 최소제곱법(least square estimation, LSE)으로서(이외에 기댓값과 공분산을 이용하는 방법이 있다, 결과는 동일), 오차의 제곱합을 최소화하는 회귀계수의 값을 구하는 방법이다. 잔차를 그대로 더하면 양의 값과 음의 값이 상쇄되어 0이 되므로, 오차의 제곱을 더한 후 이의 최솟값을 찾는다.

\dpi{100} Q = \sum^n_{i=1} \epsilon_i^2 = \sum^n_{i=1} (y_i-\beta_0 -\beta_1x_i)^2

위 식을 최소로 하는 추정치 \dpi{100} \hat \beta_0, \hat \beta_1은 \dpi{100} Q를 \dpi{100} \beta_0, \beta_1로 각각 편미분한 식을 \dpi{100} 0으로 놓고 두 방정식을 연립하여 해를 구한다.

\dpi{100} \frac{\Delta Q}{\Delta \beta_0}|_{\hat \beta_0, \hat \beta_1} = -2\sum^n_{i=1}(y_i-\hat \beta_0-\hat \beta_1 x_i) = 0

\dpi{100} \frac{\Delta Q}{\Delta \beta_1}|_{\hat \beta_0, \hat \beta_1} = -2\sum^n_{i=1}x_i(y_i-\hat \beta_0 - \hat \beta_1 x_i) = 0

두 식을 정리하면 다음과 같으며 이를 정규방정식(normal equation)이라 한다.

\dpi{100} \sum^n_{i=1} y_i = n \hat \beta_0 + \hat \beta_1 \sum^n_{i=1}x_i

\dpi{100} \sum^n_{i=1} x_i y_i = \hat \beta_0 \sum^n_{i=1}x_i + \hat \beta_1 \sum^n_{i=1}x_i^2

먼저 \dpi{100} \hat \beta_0을 소거하기 위해, 아래 식에 \dpi{100} n을 곱해서 위 식의\dpi{100} \sum^n_{i=1}x_i를 곱한식을 빼면

\dpi{100} n\sum^n_{i=1}x_i y_i - \sum^n_{i=1}x_i \sum^n_{i=1}y_i = \hat \beta_1[n\sum^n_{i=1}x_i^2 - (\sum^n_{i=1}x_i)^2]

따라서

\dpi{100} \beta_1 = \frac{n\sum^n_{i=1}x_i y_i - (\sum^n_{i=1}x_i)(\sum^n_{i=1} y_i)}{n\sum^n_{i=1}x_i^2 - (\sum^n_{i=1} x_i)^2} = \frac{S_{XY}} {S_{XX}}

여기서 \dpi{100} S_{XY}는 \dpi{100} x와 \dpi{100} y의 변동, \dpi{100} S_{XX}는 \dpi{100} x의 변동을 나타내며 다음과 같이 계산한다.

\dpi{100} S_{XY} = \sum^n_{i=1}(x_i - \overline x )(y_i - \overline y) = \sum^n_{i=1}x_i y_i - (\sum^n_{i=1}x_i)(\sum^n_{i=1} y_i)/n

\dpi{100} S_{XX} = \sum^n_{i=1}(x_i - \overline x)^2 = \sum^n_{i=1}x_i^2 - (\sum^n_{i=1}x_i)^2 / n

다음으로 \dpi{100} \hat \beta_0을 구해보면 다음과 같다.

\dpi{100} \hat \beta_0 = \overline y - \hat \beta_1 \overline x

추정된 회귀식의 잔차는 \dpi{100} e_i = y_i - \hat y_i = y_i - \hat \beta_0 - \hat \beta_1x_i가 되며, 다음과 같은 성질을 가진다.

\dpi{100} \sum^n _{i=1} e_i = 0 ,~ \sum^n_{i=1}x_i e_i = 0

단순선형회귀 모형의 최소제곱추정

  • 최소제곱추정치(LSE): \dpi{100} \hat \beta_1 = S_{XY}/S_{XX},~ \hat \beta_0 = \overline y -\hat \beta_1 \overline x
  • 추정 회귀식: \dpi{100} \hat y = \hat \beta_0 + \hat \beta_1x
  • 잔차의 특성: \dpi{100} \Sigma^n_{i=1}e_i = 0,~\Sigma^n_{i=1}x_ie_i = 0

추정된 회귀식은 다음과 같이 평균점 \dpi{100} (\overline x, \overline y)을 항상 지나게 된다.

\dpi{100} \hat y = \hat \beta_0 + \hat \beta_1 x = (\overlien y - \hat \beta_1 \overline x)+\hat \beta_1x = \overline y + \hat \beta_1(x-\overline x)

2. 총편차의 분해

회귀식을 추정한 다음에는 추정된 모형에 대한 적합성 검정을 실시하여 모형의 타당성을 확인할 필요가 있다. 이를 위해 보편적으로 사용하는 방법은 분산분석으로서, 종속변수 관측치의 전체 변동을 회귀식에 의해 설명되는 변동과 설명되지 않는 변동으로 분해하여 비교하는 방법이다. 본격적인 적합성 검정에 앞서 검정통계량을 구하기 위해 총편차에 대해 알아보자.

총편차(total deviation)는 각각의 표본 데이터(\dpi{100} y_i)와 전체 평균(\dpi{100} \overline y)과의 차이로서, 종속변수가 흩어져 있는 정도를 나타낸다. 총편차는 다음과 같이 두 개 편차의 합으로 나타낼 수 있다.

\dpi{100} (y_i - \overline y) = (\hat y_i - \overline y) + (y_i - \hat y_i)

위 식에서 \dpi{100} (\hat y_i - \overline y)는 회귀직선에 의하여 설명이 되는 편차인 반면, \dpi{100} (y_i - \hat y_i)는 회귀직선에 의하여 설명되지 않는 잔차(residual)이다. 회귀식이 완벽하다면 모든 관측치들은 회귀직선상에 위치하게 되므로, 모든 잔차는 0이 되고, 총 편차는 회귀직선에 의하여 100% 설명이 된다.

총편차를 모두 더하면 0이 되므로, 총편자를 제곱하여 더함으로써 종속변수의 변동을 구할 수 있는데, 이를 총변동(total variation), 또는 총제곱합이라 한다. 이는 다음과 같이 계산된다.

\dpi{100} SS_T = \sum^n_{i=1}(y_i - \overline y)^2 = \sum^n_{i=1} y_i^2 - \frac{(\sum^n_{i=1}y_i)^2}{n}

총편차의 분해식으로부터 총제곱합을 계산하면

\dpi{100} \sum^n_{i=1} (y_i - \overline y)^2 = \sum^n_{i=1}(\hat y_i - \overline y)^2 + \sum^n_{i=1}(y_i - \overline y)^2 + 2\sum^n_{i=1}(\hat y_i - \overline y)(y_i - \hat y_i)

\dpi{100} \hat y_i - \overline y = \hat \beta_1(x_i - \overline x), ~ e_i = y_i - \hat y_i이므로, 우변의 마지막항은 다음과 같이 0이 됨을 보일 수 있다.

\dpi{100} \sum^n_{i=1}(\hat y_i - \overline y)(y_i - \hat y_i)= \sum^n_{i=1}\hat \beta_1(\x_i - \overline x) e_i = \hat \beta_1 \sum^n_{i=1}x_ie_i - \hat \beta_1 \overline x \sum^n_{i=1}e_i = 0

따라서 총제곱합의 분해식은 아래와 같다.

\dpi{100} \sum^n_{i=1}(y_i - \overline y)^2 = \sum^n_{i=1} (\hat y_i - \overline y)^2 + \sum^n_{i=1}(y_i - \hat y_i)^2

우변의 첫 번째 항은 회귀직선에 의하여 설명되는 회귀제곱합(regression sum of squares)으로서, \dpi{100} \hat y_i - \overline y = \hat \beta_1 (x_i - \overline x)을 대입하여 다음과 같이 계산된다.

\dpi{100} SS_R = \sum^n_{i=1}(\hat y_i - \overline y)^2 = \hat \beta_1^2\sum^n_{i=1}(x_i - \overline x)^2 = \hat \beta_1^2 S_{XX} = S_{XY}^2 / S_{XX}

우변의 두 번째 항은 회귀직선에 의하여 설명되지 않는 오차제곱합(error sum of squares)이라 한다.

단순선형회귀 모형의 제곱합 분해

총제곱합 \dpi{100} SS_T = \sum^n_{i=1}(y_i - \overline y)^2 = \sum^n_{i=1} y_i^2 - \frac{(\sum^n_{i=1} y_i)^2}{n} = SS_R + SS_E

회귀제곱합 \dpi{100} SS_R = \sum^n_{i=1}(\hat y_i - \overline y)^2 = \hat \beta_1^2 \sum^n_{i=1}(x_i - \overline x)^2 = \hat \beta_1^2 S_{XX} = S^2_{XY}/S_{XX}

오차제곱합 \dpi{100} SS_E = \sum^n_{i=1}(y_i - \hat y_i)^2 = SS_T - SS_R

 

분산분석을 수행하기 위해서는 각 제곱합의 자유도를 구할 필요가 있다.

먼저 총제곱합 \dpi{100} SS_T의 자유도는 \dpi{100} \phi_T = n-1이 된다. 총제곱합을 구성하는 \dpi{100} n개의 항 중에 하나의 제약 \dpi{100} \sum^n_{i=1}(y_i - \overline y)=0이 있기 때문이다. 다음으로 회귀제곱합 \dpi{100} SS_R의 자유도는 회귀계수의 개수 2에서 1을 제하여 \dpi{100} \phi_R = 1이 된다. 절편의 추정치는 \dpi{100} \hat \beta_0 = \overline y - \hat \beta_1 \overline x로 구해지므로 독립적인 모수의 개수는 1개 뿐이기 때문이다. 마지막으로 오차제곱합 \dpi{100} SS_E의 자유도는 \dpi{100} n개의 항 충에서 추정된 모수의 개수 2만큼 제약이 발생하므로 \dpi{100} \phi_E = n-2가 된다.

\dpi{100} \phi_T = \phi_R + \phi_E

3. 모형의 적합성 검정(분산분석)

단순 선형회귀 모형이 의미를 갖기 위해서는 회귀식의 기울기가 0이 아니어야 한다. 회귀직선의 기울기가 0이면 독립변수가 변화하더라도 종속변수는 영향을 받지 않기 때문에 회귀식은 무의미해진다. 따라서 단순선형회귀 모형의 적합성을 검정하기 위해 귀무가설을 "회귀식은 무의미하다"로 설정하면 이는 \dpi{100} H_0: \beta_1 = 0으로 나타낼 수 있다.

만약 귀무가설이 참이라면 회귀식의 기울기는 0이 가깝게 나타나서 회귀제곱합(\dpi{100} SS_R)이 작아지고, 총제곱합(\dpi{100} SS_T)에서 오차제곱합(\dpi{100} SS_E)이 차지하는 비중이 커지게 될 것이다. 반대로 회귀식이 의미를 갖는다면 표본 데이터가 회귀직선으로 잘 설명되어 총제곱합에서 회귀제곱합이 차지하는 비중이 클 것이다. 따라서 회귀모형의 적합성에 대한 검정은 회귀제곱합과 오차제곱합의 상대적인 크기를 비교하여 결정한다.

제곱합을 자유도로 나눈 값을 평균제곱(mean square)이라 하는데, 회귀평균제곱(\dpi{100} MS_R)과 오차평균제곱(\dpi{100} MS_E)의 비율은 귀무가설 하에서 자유도 1과 \dpi{100} n-2를 갖는 F-분포를 따른다. 만약 \dpi{100} F_0 = MS_R / MS_E > F_{1-\alpha; (1, n-2)}이면 귀무가설 \dpi{100} H_0: \beta_1 = 0을 기각하고 대립가설 \dpi{100} H_1: \beta_1 \neq 0을 채택한다. 귀무가설이 기각되면 기울기 \dpi{100} \beta_1이 의미가 있으므로 회귀직선이 적합한 모형이라는 증거가 있다고 판단할 수 있다. 단순회귀모형의 적합성 검정을 위한 분산분석표는 다음과 같다.

요인 제곱흡(\dpi{100} SS) 자유도 평균제곱(\dpi{100} MS) 검정통계량 기각역
회귀 \dpi{100} SS_R \dpi{100} 1 \dpi{100} MS_R = SS_R  

\dpi{100} \frac{MS_R}{MS_E}

 

\dpi{100} F_{1-\alpha;(1. n-2)}

잔차 \dpi{100} SS_E \dpi{100} n-2 \dpi{100} MS_E = SS_E/(n-2)
\dpi{100} SS_T \dpi{100} n-1

 

총 변동 중에서 회귀모형에 의하여 설명되는 변동이 차지하는 비율을 결정계수(coefficient of determination)라 한다. 결정계수는 추정된 회귀직선이 종속변수의 변동을 어느 정도로 잘 설명해주는가를 나타내는 척도로서, 다음과 같이 계산된다.

\dpi{100} R^2 = \frac{SS_R}{SS_T} = 1 -\frac{SS_E}{SS_T}

단순선형회귀 모형의 결정계수는 표본상관계수의 제곱과 같다.

 

 

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다