문과생 네버랜드의 데이터 창고

44. 상관관계와 독립성 검정 본문

수리통계

44. 상관관계와 독립성 검정

K JI 2023. 8. 4. 16:28
  1. 상관관계가 낮을 때 두 변수는 독립적인가?
    1) 앞서 우리는 상관계수에서 상관계수란 공분산의 표준화 형이며, 공분산은 두 변수 X와 Y가 함께 변해갈때의 기댓값을 의미한다고 설명하였다.

    ${(1)}$ 상관계수는 -1 ~1 사이의 값을 가지며, 0은 두 확률변수의 상관관계가 없다는 것을 의미한다.

    ${(2)}$ 문제는 상관계수의 측정은 어디까지나 실현된 표본을 중심으로 측정하는 통계량에 불과하다는 점이다.
    -. 모집단 차원에서 살펴보면, 두 확률변수가 진짜로 상관관계가 존재할까?(즉, $\rho \neq 0$ 일까?)
    -. 이런 의문에 해답을 얻기 위해 상관관계도 마찬가지로 어떤 가설에 기반한 독립성 검정을 수행할 수 있다.

    2) 독립성 검정의 유도

    ${(1)}$ $[X_{i}]$와 $[Y_{i}]$가 평균 $\mu_{1}$, $\mu_{2}$이고 분산이 $\sigma_{1}^{2}$, $\sigma_{2}^{2}$이고 상관계수가 $\rho$인 이변량 정규분포에서 추출한 i.i.d 라고 하자.
    다음의 가설을 검정하고자 한다.
    $$H_{0} : \rho = 0 \ VS \ H_{1} : \rho \neq 0$$
    가설 검정을 위한 우도비 함수를 정의하자

    X,Y가 이변량 정규분포를 따른다고 하였으므로 우도 함수는
    $$L(\theta ; X_{n}, Y_{n}) = f(x_{1},y_{1}, \theta) \cdot f(x_{1},y_{1}, \theta) \dots f(x_{n},y_{n}, \theta)$$
    각각의 가설공간하에서 이변량 정규분포의 우도함수를 이용하여 우도비를 정의하면   
    $$\Lambda = \frac{L(\rho=0;x_{n}, y_{n})}{L(\rho\neq0;x_{n}, y_{n})} = \frac{\sum(x_{i}-\overline{x})(y_{i}-\overline{y})}{\sqrt{\sum(x_{i}-\overline{x})^{2}(y_{i}-\overline{y})^{2}}}$$ 이다.

    이 때, 이 우도비를 표본에 의거한 상관계수 R이라고 한다.

    이제, 이 상관계수 통계량 R을 최강력 검정에 기반하여 알려진 분포로 변환할것이다.
    이 우도비가 단조우도비라고 하자.

    Y에 대한 X의 조건부 분포를 정의한다고 하자.
    $Y_{i} | X_{1} = x_{1}, \dots X_{n} = x_{n}$
    즉, 이는 $x_{1}, \dots, x_{n}$이라는 표본의 실현값이 주어졌을때의 $Y_{i}$의 조건부 분포이다.

    $Y_{i}$는 i.i.d이고, $\rho = 0$일 때 $X_{i}$와 $Y_{i}$도 서로 확률적으로 독립이고, 이변량 정규분포에서
    단순히 각각의 확률변수를 갖는 pdf의 단순결합으로 분리가 가능하다. 즉

    $$pdf(y_{i} | x_{1}, \dots, x_{n}) = \begin{bmatrix}\frac{1}{\sqrt{2\pi}\sigma_{y}}\end{bmatrix}^{\frac{n}{2}}exp\begin{pmatrix}-\frac{\sum(y_{i}-\mu_{y})^{2}}{2\sigma_{y}^{2}}\end{pmatrix}$$
    다시 말해 $\rho=0$일 경우 $Y_{i} | X_{1} = x_{1}, \dots X_{n} = x_{n} = Y_{i}$ 이다.

    $\rho = 0$라는 조건을 추가하여 다시 정의한 우도비 함수를 $\Lambda_{c} = R_{c}$로 재정의하자. 다시 말해
    $$R_{c} = \frac{\sum(x_{i}-\overline{x})([Y_{i} | X_{1} = x_{1}, \dots X_{n} = x_{n}]-\overline{y})}{\sqrt{\sum(x_{i}-\overline{x})^{2}([Y_{i} | X_{1} = x_{1}, \dots X_{n} = x_{n}]-\overline{y})^{2}}} = \frac{\sum(x_{i}-\overline{x})(y_{i}-\overline{y})}{\sqrt{\sum(x_{i}-\overline{x})^{2}(y_{i}-\overline{y})^{2}}} = R$$

    $R_{c}$를 이용한 다음의 함수를 정의하자
    $g(|R_{c}|) = \frac{R_{c}\sqrt{\sum(Y_{i} - \overline{Y})^{2}}}{\sqrt{\sum(x_{i}-\overline{x})^{2}}} = \frac{\sum(x_{i}-\overline{x})(Y_{i}-\overline{Y})}{\sum(x_{i}-\overline{x})^{2}}= \frac{\sum(x_{i}-\overline{x})Y_{i}-\sum(x_{i}-\overline{x})\overline{Y}}{\sum(x_{i}-\overline{x})^{2}}$

    이 때, $\sum(x_{i}-\overline{x})\overline{Y}$는 어떤 고정된 상수 $\overline{Y}$와 편차 $(x_{i}-\overline{x})$의 합이므로 소거된다. 따라서 
    $$\frac{\sum(x_{i}-\overline{x})Y_{i}-\sum(x_{i}-\overline{x})\overline{Y}}{\sum(x_{i}-\overline{x})^{2}} = \frac{\sum(x_{i}-\overline{x})Y_{i}}{\sum(x_{i}-\overline{x})^{2}}$$

    이 형태는 매우 익숙한데, 바로 회귀분석에서 모수 $\beta$에 대한 꼴이 정확히 저 형태였기 때문이다.

    따라서, 동일한 논리에 따라 $R_{c}$에 대한 검정통계량 도출이 이제 가능하다.
    $$T_{\beta} = \frac{\sqrt{(\widehat{\beta} - \beta)(x_{i} - \overline{x})^{2}}/\sigma}{\sqrt{\frac{n\widehat{\sigma}^{2}}{\sigma^{2}}/(n-2)}} = \frac{(\widehat{\beta} - \beta)}{\sqrt{\frac{n\widehat{\sigma^{2}}}{(n-2)\sum(x_{i}-\overline{x})^{2}}}} \sim T(n-2)$$
    에서 $\beta = \frac{R_{c}\sqrt{\sum(Y_{i} - \overline{Y})^{2}}}{\sqrt{\sum(x_{i}-\overline{x})^{2}}}$로 놓으면

    $\widehat{\alpha} = \overline{Y}$이고
    $\widehat{\sigma^{2}} = \frac{1}{n}\sum[Y_{i} - \overline{Y} - (\frac{R_{c}\sqrt{\sum(Y_{i} - \overline{Y})^{2}}}{\sqrt{\sum(x_{i}-\overline{x})^{2}}})(x_{i} - \overline{x})^{2}]$ 이다.

    따라서 
    $$T_{R_{c}}=\frac{R_{c}\sqrt{\sum(Y_{i} - \overline{Y})^{2}}/\sqrt{\sum(x_{i}-\overline{x})^{2}}}{\sqrt{\frac{\sum[Y_{i} - \overline{Y} - (R_{c}\sqrt{\sum(Y_{i} - \overline{Y})^{2}}/\sqrt{\sum(x_{i}-\overline{x})^{2}})(x_{i} - \overline{x})^{2}]}{(n-2)\sum(x_{i}-\overline{x})^{2}}}} \\ = \frac{R_{c}\sqrt{n-2}}{\sqrt{1-R_{c}^{2}}}$$

    는 $T(n-2)$의 분포를 따른다.

'수리통계' 카테고리의 다른 글

45. 베이지안 통계와 베이지안 절차  (2) 2023.08.06
39-1. 통계학적 2차 형식(다변량)  (0) 2023.08.04
43. 회귀분석  (0) 2023.08.03
42. 이원배치 분산분석  (0) 2023.08.02
41. 다중비교(사후분석, post-hoc)  (0) 2023.08.01