문과생 네버랜드의 데이터 창고

43. 회귀분석 본문

수리통계

43. 회귀분석

K JI 2023. 8. 3. 20:11
  1. 회귀분석이란
    1) 회귀 분석이란
    ${(1)}$ 한 변수의 기댓값과 다른 변수(들)사이의 관계를 정의하는 모형식을 정의하는 절차를 회귀분석이라고 한다.

    -. 기댓값은 해당 확률변수가 모수 공간에서 가질것으로 기대되는 일반화된 평균값이기 때문에, 기댓값을 구한다는 것은 지금 당장 실현된 표본값을 너머 일반적으로 그럴것이다라는 예측값을 생산할 수 있게 된다.

    -. 조건부 기댓값을 정의하기 위해 다음의 모형식을 정의하게 되는데, 이를 바로 회귀식이라고 한다
    $$E(Y) = f(x_{i}, \theta) + e_{i}$$
    이 때, $e_{i}$는 잔차(Error)를 의미하고, $x_{i}$는 실현된 표본값을 의미한다.(확률변수가 아님에 유의한다)

    ${(2)}$ 단변량 선형회귀분석

    -. 이번 포스트에서 살펴볼 내용은 하나의 반응변수 Y와 이를 설명하기 위한 설명변수 X 두개로만 이루어진 단변량이다.
    -. 또, 모수 $\theta$에 대하여 선형 관계만을 다룰 것이므로, 선형 회귀이다.

    -. 회귀분석은 다변량에 대하여, 또 비선형적인 관계에 대하여 일반화가 가능하다. 이는 다변량 회귀분석(Multiple Regression), 일반화 선형모형(Generalized Linear Model) 또는 비선형 회귀분석(Non Linear Regression)을 키워드로 찾아볼 수 있다.
     
  2. 단변량 선형회귀분석의 유도
    1) 선형 모델의 결정
    반응에 대한 확률변수를 Y라고 하자.
    일반화된 예측을 수행하기 위해, $E(Y)$에 대하여 관심이 있다고 가정하자.

    우선, 다음의 선형모델을 가정해볼 수 있다.
    $Y_{i} = \alpha + \beta(x_{i} - \overline{x}) + e_{i}$
    이 때, $e_{i}$는 $N(0, \sigma^{2})$를 따르는 i.i.d 확률변수이다. 

    이 선형모델의 기댓값과 분산을 구하면
    ① $E[Y_{i}] = E[\alpha + \beta(x_{i} - \overline{x})] + E(e_{i})$ 

    이 때, $x_{i}$는 확률변수가 아니라 실현된 표본값이므로 일종의 상수로 취급할 수 있고, 
    $E(e_{i}) = 0$ 이다. 따라서
    $E[Y_{i}] = \alpha + \beta(x_{i} - \overline{x})$

    ② $Var[Y_{i}] = Var[\alpha + \beta(x_{i} - \overline{x})] + Var(e_{i})$
    상수의 분산은 0과 같고, $Var(e_{i}) = \sigma^{2}$ 이므로
    $Var[Y_{i}] = \sigma^{2}$

    다시 말해. $$Y_{i} \sim N(\alpha + \beta(x_{i} - \overline{x}), \sigma^{2})$$ 이다.
    ${(1)}$ 잔차 $e_{i}$가 $N(0, \sigma^{2})$을 따르고, $x_{i}$는 확률변수가 아닌 실현된 표본값(즉, 일종의 상수)으로 보면
    -. $Y_{i}$는 잔차 $e_{i}$에서 평균이 $\alpha + \beta(x_{i} - \overline{x})$만큼 이동한 $N(\alpha + \beta(x_{i} - \overline{x}), \sigma^{2})$를 따르는 확률변수라고 볼 수 있다는 내용이다.

    2) 최소제곱법의 유도
    ${(1)}$ 이제 관건은 이 선형모델을 가능케하는 모수 $(\alpha, \beta)$를 추정하는 것이다. 이를 가능케하는 방법론이 바로 최소 제곱법이다.
    도출한 확률표본 $Y_{i}$의 우도함수를 정의하자.
    $L(\alpha, \beta, \sigma^{2}; Y) = \prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma}exp\begin{bmatrix}-\frac{(y_{i}-\alpha-\beta(x_{i}-\overline{x})^{2}}{2\sigma^{2}}\end{bmatrix} = [\frac{1}{\sqrt{2\pi}\sigma}]^{n}exp\begin{bmatrix}-\frac{\sum_{i=1}^{n}(y_{i}-\alpha-\beta(x_{i}-\overline{x})^{2}}{2\sigma^{2}}\end{bmatrix}$

    로그 우도로 변환하고, 각각의 모수에 대하여 최대우도추정량을 구하면
    -. $\frac{\partial l(\alpha, \beta, \sigma^{2})}{\partial \alpha} = 2\sum(y_{i} - \alpha - \beta(x_{i} - \overline(x)) \cdot (-1) = 0$
    -. $\frac{\partial l(\alpha, \beta, \sigma^{2})}{\partial \beta} = 2\sum(y_{i} - \alpha - \beta(x_{i} - \overline(x)) \cdot (-(x_{i} - \overline{x})) = 0$

    각각의 파라미터에 대하여 식을 정리하면
    -. $\widehat{\alpha} = \frac{\sum y_{i}}{n}$
    -. $\widehat{\beta} = \frac{\sum \sum y_{i}(x_{i}-\overline{x})}{\sum(x_{i} - \overline{X})^{2}}$ 
    이와 같은 방법론을 모수 추정을 위한 최소제곱법이라고 표현한다.

    3) 파라미터의 적합도 검정

    ${(1)}$ $\alpha$, $\beta$에 대한 적합도 측정
    -. 최소제곱법을 이용해 모수 $\alpha$, $\beta$를 추정했다고 하자.
    -. 이 또한 어떤 종류의 확률변수로 볼 수 있고, 우리가 추정한 파라미터가 정말로 좋은 추정량인지 확인해야할 필요가 있다.
    -. 따라서, 밑의 유도를 통해 $\alpha$와 $\beta$의 분포를 정의할 것이다.

    $\alpha$는 i.i.d이고, 확률변수 Y와 관련된 선형함수이다. 이 때, 기댓값과 분산을 정의하면
    ① $E(\widehat{\alpha}) = E(\frac{y_{i}}{n}) = \frac{E(y_{i})}{n}$
    이 때, $E(Y_{i}) = \alpha + \beta(x_{i} - \overline{x})$임을 이미 위에서 정의하였다. 정리하면
    $\frac{E(y_{i})}{n} = \frac{1}{n}[\sum \alpha + \beta(x_{i} - \overline{x})] = \frac{1}{n}[n\alpha + \sum \beta(x_{i} - \overline{x})]= \alpha$
    이로서, $\frac{y_{i}}{n}$는 $\alpha$에 대한 불편추정량임을 증명하였다.

    ②$Var(\widehat{\alpha}) = \frac{\sum(y_{i})}{n^{2}}$
    이 때, $var(y_{i}) = \sigma^{2}$임을 위에서 도출하였다. 정리하면
    $\frac{\sum(y_{i})}{n^{2}} = \frac{n\sigma^{2}}{n^{2}} = \frac{\sigma^{2}}{n}$

     이를 종합하면, $\widehat{\alpha} \sim N(\alpha, \frac{\sigma^{2}}{n}), $이다.
    마찬가지로, $\beta$는 i.i.d이고 확률변수 Y와 관련된 선형함수이다. 마찬가지로 기댓값과 분산을 정의하면
    ①$E(\widehat{\beta}) = \frac{\sum E[y_{i}](x_{i} - \overline{x})}{\sum (x_{i}-\overline{x})^{2}}$
    마찬가지로 $E(y_{i})$를 이용하여 정리하면
    $E(\widehat{\beta}) = \frac{\sum [\alpha + \beta(x_{i} - \overline{x}](x_{i} - \overline{x})}{\sum (x_{i}-\overline{x})^{2}} = \frac{\sum \alpha(x_{i} - \overline{x}) + \beta(x_{i} - \overline{x})^{2}}{\sum (x_{i}-\overline{x})^{2}} = \beta$

    이로서 $\frac{\sum y_{i}(x_{i} - \overline{x})}{\sum (x_{i}-\overline{x})^{2}}$는 $\beta$에 대한 불편추정량임을 증명하였다.

    ② $Var(\widehat{\beta}) = \frac{\sum (x_{i} - \overline{x})}{\sum (x_{i}-\overline{x})^{2}} \cdot Var[y_{i}] = \frac{\sum (x_{i} - \overline{x})}{\sum (x_{i}-\overline{x})^{2}} \cdot \sigma^{2} = \frac{\sigma^{2}}{(\sum x_{i} - \overline{x})^{2}}$

     $\frac{\partial l(\alpha, \beta, \sigma^{2})}{\partial \sigma^{2}} = \frac{n}{2\sigma^{2}}-\frac{-\sum(y_{i}-\alpha-\beta(x_{i}-\overline(x))^{2}}{2(\sigma^{2})^{2}} = 0$
    마지막으로, 분산 $\sigma^{2}$에 대하여 정리하자. $\sigma^{2}$은 다음과 같이 나타낼 수 있다.
    -. $\widehat{\sigma^{2}} = \frac{1}{n}\sum [y_{i} - \alpha - \beta(x_{i} - \overline{x}]^{2}$

    한편, $E(y_{i}) = \alpha + \beta(x_{i} - \overline{x})$ 에서 
    $[y_{i} - E(y_{i})] = y_{i} - \alpha - \beta(x_{i} - \overline{x})$와 같다.

    그런데, $[y_{i} - E(y_{i})]$는 $Y_{i}$의 실현값과 (이상적인) 기댓값 사이의 차이이므로,
    잔차 $e_{i}$의 사전적인 의미에 부합한다. 따라서 $\widehat{\sigma^{2}}$를 이런 개념으로 다시 표현하면
    $$\widehat{\sigma^{2}} = \frac{1}{n}\sum [y_{i} - \alpha - \beta(x_{i} - \overline{x}]^{2} = \frac{1}{n}\sum e_{i}^{2}$$
    다시말해, $Y_{i}$의 분산은 잔차의 제곱합과 같다.

    $Q = \sum [y_{i} - \alpha - \beta(x_{i} - \overline{x}]^{2}$인 2차형식으로 정의하자.

    이 때, Q에 대한 기댓값과 분산은 다음과 같이 구해진다.

    ①$E(Q) = E(e_{i}) = 0$
    ②$var(e_{i}) = \sigma^{2}$

    따라서, $\frac{Q}{\sigma} = \frac{y_{i} - \alpha - \beta(x_{i} - \overline{x}}{\sigma} \sim N_{i}(0,1)$ 이다.
    이를 제곱하여 선형결합한 $\frac{\sum Q_{i}^{2}}{\sigma^{2}}$은 카이제곱분포의 성질에 따라 $X^{2}(n)$을 따른다. 
    종합하여 정리하면
    $\widehat{\beta} \sim N(\beta, \frac{\sigma^{2}}{(\sum x_{i} - \overline{x})^{2}})$

    이제, $\widehat{\alpha}$, $\widehat{\beta}$에 대하여 표준정규분포로 스케일을 실시할것이다.
    위에서 도출한 사실에 따라 다음은 각각 표준정규분포를 따른다.

    -. $\frac{n(\widehat{\alpha} - \alpha)}{\sigma} \sim N(0,1)$
    -. $\frac{\sqrt{\sum (x_{i} - \overline{x})^{2}}(\widehat{\beta} - \beta)}{\sigma} \sim N(0,1)$ 

    따라서, 각각을 제곱하면 각각은 카이제곱분포의 성질에 따라 $X^{2}(1)$의 분포로 수렴한다.

    분산에서 정의한 2차형식 Q에 대하여 모수 $\alpha$, $\beta$를 첨가하는 식으로 변형하여 
    $Q = Q_{1} + Q_{2} + Q_{3}$으로 분해하자. 그럼 다음과 같이 나타낼 수 있다.

    $$Q = \sum \{(\widehat{\alpha} - \alpha) + (\widehat{\beta} - \beta)(x_{i} - \overline{x}) + [y_{i} - \widehat{\alpha} - \widehat{\beta}(x_{i} - \overline{x})]^{2}\} \\ = n(\widehat{\alpha} - \alpha) + (\widehat{\beta} - \beta)\sum(x_{i} - \overline{x}) + n\widehat{\sigma}^{2}$$

    이 때, $\frac{Q_{1}}{\sigma^{2}} = \frac{n(\widehat{\alpha} - \alpha)^{2}}{\sigma^{2}} \sim X^{2}(1)$ 이고
    $\frac{Q_{2}}{\sigma^{2}} = \frac{(\widehat{\beta} - \beta)(x_{i} - \overline{x})^{2}}{\sigma^{2}} \sim X^{2}(1)$ 임을
    위에서 도출했으므로 2차형식에서 보았던 가법성에 따라

    $\frac{Q_{3}}{\sigma^{2}} \sim x^{2}(n-1-1=n-2)$를 따른다.

    마무리하여, 파라미터 $\alpha$, $\beta$에 대한 신뢰구간 정의를 위해 T분포를 조립하자.

    $T = \frac{W}{\sqrt{V/n}}$을 이용하면
    $$T_{\alpha} = \frac{\sqrt{n}(\widehat{\alpha} - \alpha)/\sigma}{\sqrt{\frac{n\widehat{\sigma}^{2}}{\sigma^{2}}/(n-2)}} = \frac{(\widehat{\alpha} - \alpha)}{\sqrt{\widehat{\sigma}^{2}/(n-2)}} \sim T(n-2)$$
    $$T_{\beta} = \frac{\sqrt{(\widehat{\beta} - \beta)(x_{i} - \overline{x})^{2}}/\sigma}{\sqrt{\frac{n\widehat{\sigma}^{2}}{\sigma^{2}}/(n-2)}} = \frac{(\widehat{\beta} - \beta)}{\sqrt{\frac{n\widehat{\sigma^{2}}}{(n-2)\sum(x_{i}-\overline{x})^{2}}}} \sim T(n-2)$$

    를 이용하여 신뢰구간을 정의할 수 있다.

    $(1-\alpha) = P_{H_{0A}}\begin{bmatrix}-C \leq \frac{(\widehat{\alpha} - \alpha)}{\sqrt{\widehat{\sigma}^{2}/(n-2)}} \leq C\end{bmatrix}$ 에서 C는 $T(\alpha/2, n-2)$ 를 따르므로 
    $$(1-\alpha) = P_{H_{0A}}\begin{bmatrix}\widehat{\alpha}-T_{\alpha/2,n-2}\sqrt{\widehat{\sigma}^{2}/(n-2)} \ \leq \ \alpha  \leq \ \widehat{\alpha} + T_{\alpha/2,n-2}\sqrt{\widehat{\sigma}^{2}/(n-2)}\end{bmatrix}$$

    는 $\alpha$에 대한 $(1-\alpha)$100% 신뢰구간을 구성하고 

    $(1-\alpha) = P_{H_{0B}}\begin{bmatrix}-C \leq  \frac{(\widehat{\beta} - \beta)}{\sqrt{\frac{n\widehat{\sigma^{2}}}{(n-2)\sum(x_{i}-\overline{x})^{2}}}} \leq C\end{bmatrix}$ 에 C는 $T(\alpha/2, n-2)$ 를 따르므로 
    $$(1-\alpha) = P_{H_{0B}}\begin{bmatrix}\widehat{\beta} - T_{\alpha/2, n-2}\sqrt{\frac{n\widehat{\sigma^{2}}}{(n-2)\sum(x_{i}-\overline{x})^{2}}} \ \leq \ \beta \ \leq \ \widehat{\beta} + T_{\alpha/2, n-2}\sqrt{\frac{n\widehat{\sigma^{2}}}{(n-2)\sum(x_{i}-\overline{x})^{2}}}\end{bmatrix}$$
    는 $\beta$에 대한 $(1-\alpha)100%$ 신뢰구간을 구성한다.

    이 때 $\widehat{\sigma}^{2} = \frac{1}{n}\sum e_{i}^{2}$ 라는 점을 기억하자
    ${(2)}$ 이제, 다음의 가설을 검정할 수 있다.
    -. $\alpha$ 또는 $\beta$가 0과 유의미하게 다른가? : $\widehat{\alpha}$, $\widehat{\beta}$에 대하여 T검정량을 정의했으므로,  $\alpha = 0$ 혹은 $\beta = 0$로 놓았을 때 검정통계량을 도출할 수 있다.
    -. 이 검정통계량이 $T(n-2)$ 분포에서 우리가 사전에 정의한 유의 확률 $\alpha$의 기각역 내에 속한다면, 우리는 0과 유의미하게 다르다는 가설($H_{1}$)을 채택할 수 있다.
    -. 혹은, 신뢰구간 내에 0이 포함되는지 아닌지 확인하여 가설을 검정할 수 있다. 이것이 모수에 대한 적합도 검정이다.