43. 회귀분석

Notice

Recent Posts

Recent Comments

Link

« 2025/08 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

문과생 네버랜드의 데이터 창고

43. 회귀분석 본문

수리통계

43. 회귀분석

K JI 2023. 8. 3. 20:11

회귀분석이란
1) 회귀 분석이란
${(1)}$ 한 변수의 기댓값과 다른 변수(들)사이의 관계를 정의하는 모형식을 정의하는 절차를 회귀분석이라고 한다.

-. 기댓값은 해당 확률변수가 모수 공간에서 가질것으로 기대되는 일반화된 평균값이기 때문에, 기댓값을 구한다는 것은 지금 당장 실현된 표본값을 너머 일반적으로 그럴것이다라는 예측값을 생산할 수 있게 된다.

-. 조건부 기댓값을 정의하기 위해 다음의 모형식을 정의하게 되는데, 이를 바로 회귀식이라고 한다
$$E(Y) = f(x_{i}, \theta) + e_{i}$$
이 때, $e_{i}$는 잔차(Error)를 의미하고, $x_{i}$는 실현된 표본값을 의미한다.(확률변수가 아님에 유의한다)

${(2)}$ 단변량 선형회귀분석

-. 이번 포스트에서 살펴볼 내용은 하나의 반응변수 Y와 이를 설명하기 위한 설명변수 X 두개로만 이루어진 단변량이다.
-. 또, 모수 $\theta$에 대하여 선형 관계만을 다룰 것이므로, 선형 회귀이다.

-. 회귀분석은 다변량에 대하여, 또 비선형적인 관계에 대하여 일반화가 가능하다. 이는 다변량 회귀분석(Multiple Regression), 일반화 선형모형(Generalized Linear Model) 또는 비선형 회귀분석(Non Linear Regression)을 키워드로 찾아볼 수 있다.

단변량 선형회귀분석의 유도
1) 선형 모델의 결정

반응에 대한 확률변수를 Y라고 하자.
일반화된 예측을 수행하기 위해, $E(Y)$에 대하여 관심이 있다고 가정하자.

우선, 다음의 선형모델을 가정해볼 수 있다.
$Y_{i} = \alpha + \beta(x_{i} - \overline{x}) + e_{i}$
이 때, $e_{i}$는 $N(0, \sigma^{2})$를 따르는 i.i.d 확률변수이다.

이 선형모델의 기댓값과 분산을 구하면
① $E[Y_{i}] = E[\alpha + \beta(x_{i} - \overline{x})] + E(e_{i})$

이 때, $x_{i}$는 확률변수가 아니라 실현된 표본값이므로 일종의 상수로 취급할 수 있고,
$E(e_{i}) = 0$ 이다. 따라서
$E[Y_{i}] = \alpha + \beta(x_{i} - \overline{x})$

② $Var[Y_{i}] = Var[\alpha + \beta(x_{i} - \overline{x})] + Var(e_{i})$
상수의 분산은 0과 같고, $Var(e_{i}) = \sigma^{2}$ 이므로
$Var[Y_{i}] = \sigma^{2}$

다시 말해. $$Y_{i} \sim N(\alpha + \beta(x_{i} - \overline{x}), \sigma^{2})$$ 이다.

${(1)}$ 잔차 $e_{i}$가 $N(0, \sigma^{2})$을 따르고, $x_{i}$는 확률변수가 아닌 실현된 표본값(즉, 일종의 상수)으로 보면
-. $Y_{i}$는 잔차 $e_{i}$에서 평균이 $\alpha + \beta(x_{i} - \overline{x})$만큼 이동한 $N(\alpha + \beta(x_{i} - \overline{x}), \sigma^{2})$를 따르는 확률변수라고 볼 수 있다는 내용이다.

2) 최소제곱법의 유도
${(1)}$ 이제 관건은 이 선형모델을 가능케하는 모수 $(\alpha, \beta)$를 추정하는 것이다. 이를 가능케하는 방법론이 바로 최소 제곱법이다.

도출한 확률표본 $Y_{i}$의 우도함수를 정의하자.
$L(\alpha, \beta, \sigma^{2}; Y) = \prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma}exp\begin{bmatrix}-\frac{(y_{i}-\alpha-\beta(x_{i}-\overline{x})^{2}}{2\sigma^{2}}\end{bmatrix} = [\frac{1}{\sqrt{2\pi}\sigma}]^{n}exp\begin{bmatrix}-\frac{\sum_{i=1}^{n}(y_{i}-\alpha-\beta(x_{i}-\overline{x})^{2}}{2\sigma^{2}}\end{bmatrix}$

로그 우도로 변환하고, 각각의 모수에 대하여 최대우도추정량을 구하면
-. $\frac{\partial l(\alpha, \beta, \sigma^{2})}{\partial \alpha} = 2\sum(y_{i} - \alpha - \beta(x_{i} - \overline(x)) \cdot (-1) = 0$
-. $\frac{\partial l(\alpha, \beta, \sigma^{2})}{\partial \beta} = 2\sum(y_{i} - \alpha - \beta(x_{i} - \overline(x)) \cdot (-(x_{i} - \overline{x})) = 0$

각각의 파라미터에 대하여 식을 정리하면
-. $\widehat{\alpha} = \frac{\sum y_{i}}{n}$
-. $\widehat{\beta} = \frac{\sum \sum y_{i}(x_{i}-\overline{x})}{\sum(x_{i} - \overline{X})^{2}}$
이와 같은 방법론을 모수 추정을 위한 최소제곱법이라고 표현한다.

3) 파라미터의 적합도 검정

${(1)}$ $\alpha$, $\beta$에 대한 적합도 측정
-. 최소제곱법을 이용해 모수 $\alpha$, $\beta$를 추정했다고 하자.
-. 이 또한 어떤 종류의 확률변수로 볼 수 있고, 우리가 추정한 파라미터가 정말로 좋은 추정량인지 확인해야할 필요가 있다.
-. 따라서, 밑의 유도를 통해 $\alpha$와 $\beta$의 분포를 정의할 것이다.

$\alpha$는 i.i.d이고, 확률변수 Y와 관련된 선형함수이다. 이 때, 기댓값과 분산을 정의하면
① $E(\widehat{\alpha}) = E(\frac{y_{i}}{n}) = \frac{E(y_{i})}{n}$
이 때, $E(Y_{i}) = \alpha + \beta(x_{i} - \overline{x})$임을 이미 위에서 정의하였다. 정리하면
$\frac{E(y_{i})}{n} = \frac{1}{n}[\sum \alpha + \beta(x_{i} - \overline{x})] = \frac{1}{n}[n\alpha + \sum \beta(x_{i} - \overline{x})]= \alpha$
이로서, $\frac{y_{i}}{n}$는 $\alpha$에 대한 불편추정량임을 증명하였다.

②$Var(\widehat{\alpha}) = \frac{\sum(y_{i})}{n^{2}}$
이 때, $var(y_{i}) = \sigma^{2}$임을 위에서 도출하였다. 정리하면
$\frac{\sum(y_{i})}{n^{2}} = \frac{n\sigma^{2}}{n^{2}} = \frac{\sigma^{2}}{n}$

이를 종합하면, $\widehat{\alpha} \sim N(\alpha, \frac{\sigma^{2}}{n}), $이다.

마찬가지로, $\beta$는 i.i.d이고 확률변수 Y와 관련된 선형함수이다. 마찬가지로 기댓값과 분산을 정의하면
①$E(\widehat{\beta}) = \frac{\sum E[y_{i}](x_{i} - \overline{x})}{\sum (x_{i}-\overline{x})^{2}}$
마찬가지로 $E(y_{i})$를 이용하여 정리하면
$E(\widehat{\beta}) = \frac{\sum [\alpha + \beta(x_{i} - \overline{x}](x_{i} - \overline{x})}{\sum (x_{i}-\overline{x})^{2}} = \frac{\sum \alpha(x_{i} - \overline{x}) + \beta(x_{i} - \overline{x})^{2}}{\sum (x_{i}-\overline{x})^{2}} = \beta$

이로서 $\frac{\sum y_{i}(x_{i} - \overline{x})}{\sum (x_{i}-\overline{x})^{2}}$는 $\beta$에 대한 불편추정량임을 증명하였다.

② $Var(\widehat{\beta}) = \frac{\sum (x_{i} - \overline{x})}{\sum (x_{i}-\overline{x})^{2}} \cdot Var[y_{i}] = \frac{\sum (x_{i} - \overline{x})}{\sum (x_{i}-\overline{x})^{2}} \cdot \sigma^{2} = \frac{\sigma^{2}}{(\sum x_{i} - \overline{x})^{2}}$

$\frac{\partial l(\alpha, \beta, \sigma^{2})}{\partial \sigma^{2}} = \frac{n}{2\sigma^{2}}-\frac{-\sum(y_{i}-\alpha-\beta(x_{i}-\overline(x))^{2}}{2(\sigma^{2})^{2}} = 0$

마지막으로, 분산 $\sigma^{2}$에 대하여 정리하자. $\sigma^{2}$은 다음과 같이 나타낼 수 있다.
-. $\widehat{\sigma^{2}} = \frac{1}{n}\sum [y_{i} - \alpha - \beta(x_{i} - \overline{x}]^{2}$

한편, $E(y_{i}) = \alpha + \beta(x_{i} - \overline{x})$ 에서
$[y_{i} - E(y_{i})] = y_{i} - \alpha - \beta(x_{i} - \overline{x})$와 같다.

그런데, $[y_{i} - E(y_{i})]$는 $Y_{i}$의 실현값과 (이상적인) 기댓값 사이의 차이이므로,
잔차 $e_{i}$의 사전적인 의미에 부합한다. 따라서 $\widehat{\sigma^{2}}$를 이런 개념으로 다시 표현하면
$$\widehat{\sigma^{2}} = \frac{1}{n}\sum [y_{i} - \alpha - \beta(x_{i} - \overline{x}]^{2} = \frac{1}{n}\sum e_{i}^{2}$$
다시말해, $Y_{i}$의 분산은 잔차의 제곱합과 같다.

$Q = \sum [y_{i} - \alpha - \beta(x_{i} - \overline{x}]^{2}$인 2차형식으로 정의하자.

이 때, Q에 대한 기댓값과 분산은 다음과 같이 구해진다.

①$E(Q) = E(e_{i}) = 0$
②$var(e_{i}) = \sigma^{2}$

따라서, $\frac{Q}{\sigma} = \frac{y_{i} - \alpha - \beta(x_{i} - \overline{x}}{\sigma} \sim N_{i}(0,1)$ 이다.
이를 제곱하여 선형결합한 $\frac{\sum Q_{i}^{2}}{\sigma^{2}}$은 카이제곱분포의 성질에 따라 $X^{2}(n)$을 따른다.

종합하여 정리하면
$\widehat{\beta} \sim N(\beta, \frac{\sigma^{2}}{(\sum x_{i} - \overline{x})^{2}})$

이제, $\widehat{\alpha}$, $\widehat{\beta}$에 대하여 표준정규분포로 스케일을 실시할것이다.
위에서 도출한 사실에 따라 다음은 각각 표준정규분포를 따른다.

-. $\frac{n(\widehat{\alpha} - \alpha)}{\sigma} \sim N(0,1)$
-. $\frac{\sqrt{\sum (x_{i} - \overline{x})^{2}}(\widehat{\beta} - \beta)}{\sigma} \sim N(0,1)$

따라서, 각각을 제곱하면 각각은 카이제곱분포의 성질에 따라 $X^{2}(1)$의 분포로 수렴한다.

분산에서 정의한 2차형식 Q에 대하여 모수 $\alpha$, $\beta$를 첨가하는 식으로 변형하여
$Q = Q_{1} + Q_{2} + Q_{3}$으로 분해하자. 그럼 다음과 같이 나타낼 수 있다.

$$Q = \sum \{(\widehat{\alpha} - \alpha) + (\widehat{\beta} - \beta)(x_{i} - \overline{x}) + [y_{i} - \widehat{\alpha} - \widehat{\beta}(x_{i} - \overline{x})]^{2}\} \\ = n(\widehat{\alpha} - \alpha) + (\widehat{\beta} - \beta)\sum(x_{i} - \overline{x}) + n\widehat{\sigma}^{2}$$

이 때, $\frac{Q_{1}}{\sigma^{2}} = \frac{n(\widehat{\alpha} - \alpha)^{2}}{\sigma^{2}} \sim X^{2}(1)$ 이고
$\frac{Q_{2}}{\sigma^{2}} = \frac{(\widehat{\beta} - \beta)(x_{i} - \overline{x})^{2}}{\sigma^{2}} \sim X^{2}(1)$ 임을
위에서 도출했으므로 2차형식에서 보았던 가법성에 따라

$\frac{Q_{3}}{\sigma^{2}} \sim x^{2}(n-1-1=n-2)$를 따른다.

마무리하여, 파라미터 $\alpha$, $\beta$에 대한 신뢰구간 정의를 위해 T분포를 조립하자.

$T = \frac{W}{\sqrt{V/n}}$을 이용하면
$$T_{\alpha} = \frac{\sqrt{n}(\widehat{\alpha} - \alpha)/\sigma}{\sqrt{\frac{n\widehat{\sigma}^{2}}{\sigma^{2}}/(n-2)}} = \frac{(\widehat{\alpha} - \alpha)}{\sqrt{\widehat{\sigma}^{2}/(n-2)}} \sim T(n-2)$$
$$T_{\beta} = \frac{\sqrt{(\widehat{\beta} - \beta)(x_{i} - \overline{x})^{2}}/\sigma}{\sqrt{\frac{n\widehat{\sigma}^{2}}{\sigma^{2}}/(n-2)}} = \frac{(\widehat{\beta} - \beta)}{\sqrt{\frac{n\widehat{\sigma^{2}}}{(n-2)\sum(x_{i}-\overline{x})^{2}}}} \sim T(n-2)$$

를 이용하여 신뢰구간을 정의할 수 있다.

$(1-\alpha) = P_{H_{0A}}\begin{bmatrix}-C \leq \frac{(\widehat{\alpha} - \alpha)}{\sqrt{\widehat{\sigma}^{2}/(n-2)}} \leq C\end{bmatrix}$ 에서 C는 $T(\alpha/2, n-2)$ 를 따르므로
$$(1-\alpha) = P_{H_{0A}}\begin{bmatrix}\widehat{\alpha}-T_{\alpha/2,n-2}\sqrt{\widehat{\sigma}^{2}/(n-2)} \ \leq \ \alpha \leq \ \widehat{\alpha} + T_{\alpha/2,n-2}\sqrt{\widehat{\sigma}^{2}/(n-2)}\end{bmatrix}$$

는 $\alpha$에 대한 $(1-\alpha)$100% 신뢰구간을 구성하고

$(1-\alpha) = P_{H_{0B}}\begin{bmatrix}-C \leq \frac{(\widehat{\beta} - \beta)}{\sqrt{\frac{n\widehat{\sigma^{2}}}{(n-2)\sum(x_{i}-\overline{x})^{2}}}} \leq C\end{bmatrix}$ 에 C는 $T(\alpha/2, n-2)$ 를 따르므로
$$(1-\alpha) = P_{H_{0B}}\begin{bmatrix}\widehat{\beta} - T_{\alpha/2, n-2}\sqrt{\frac{n\widehat{\sigma^{2}}}{(n-2)\sum(x_{i}-\overline{x})^{2}}} \ \leq \ \beta \ \leq \ \widehat{\beta} + T_{\alpha/2, n-2}\sqrt{\frac{n\widehat{\sigma^{2}}}{(n-2)\sum(x_{i}-\overline{x})^{2}}}\end{bmatrix}$$
는 $\beta$에 대한 $(1-\alpha)100%$ 신뢰구간을 구성한다.

이 때 $\widehat{\sigma}^{2} = \frac{1}{n}\sum e_{i}^{2}$ 라는 점을 기억하자

${(2)}$ 이제, 다음의 가설을 검정할 수 있다.
-. $\alpha$ 또는 $\beta$가 0과 유의미하게 다른가? : $\widehat{\alpha}$, $\widehat{\beta}$에 대하여 T검정량을 정의했으므로, $\alpha = 0$ 혹은 $\beta = 0$로 놓았을 때 검정통계량을 도출할 수 있다.
-. 이 검정통계량이 $T(n-2)$ 분포에서 우리가 사전에 정의한 유의 확률 $\alpha$의 기각역 내에 속한다면, 우리는 0과 유의미하게 다르다는 가설($H_{1}$)을 채택할 수 있다.
-. 혹은, 신뢰구간 내에 0이 포함되는지 아닌지 확인하여 가설을 검정할 수 있다. 이것이 모수에 대한 적합도 검정이다.

'수리통계' 카테고리의 다른 글

39-1. 통계학적 2차 형식(다변량) (0)	2023.08.04
44. 상관관계와 독립성 검정 (0)	2023.08.04
42. 이원배치 분산분석 (0)	2023.08.02
41. 다중비교(사후분석, post-hoc) (0)	2023.08.01
39-1. 비중심 카이스퀘어 분포와 F분포 (0)	2023.07.31

'수리통계' Related Articles

문과생 네버랜드의 데이터 창고

43. 회귀분석 본문

43. 회귀분석

'수리통계' 카테고리의 다른 글

티스토리툴바