문과생 네버랜드의 데이터 창고

8. 상관계수 본문

수리통계

8. 상관계수

K JI 2023. 5. 10. 17:11

 

  1. 공분산과 상관계수
    1) 공분산은 X와 Y가 함께 변해갈때의 기댓값을 말한다.
    ${(1)}$ 수학적으로는 $COV(x,y)$ = $E[(x-\mu_{x})(y-\mu_{y})]$로 정의할 수 있다.

    ${(2)}$ 위 식을 정리하면 아래와 같이 논리를 전개할 수 있다.
    -. $E[(x-\mu_{x})(y-\mu_{y})]$ = $E[xy-y\mu_{x}-x\mu_{y}+\mu_{x}\mu_{y}]$ = $E[xy]-\mu_{x}E[y]-\mu_{y}E[x]+E[\mu_{x}\mu_{y}]$
    -. 이 때, $\mu_{x}E[y] = \mu_{x}\mu_{y}$이고, $E[\mu_{x}\mu_{y}]$ = $\mu_{x}\mu_{y}$ 이므로 소거되며, 최종적으로 정리하면 $$E[(x-\mu_{x})(y-\mu_{y})] = E[xy] + \mu_{x}\mu_{y}$$

    ${(3)}$ 이 의미를 곰곰히 생각해보면, 한 확률변수가 변해갈 때 다른 확률변수가 따라가는 관계에 대한 척도로 볼 수 있다.

    2) 상관계수는 공분산을 양 확률변수의 표준편차로 표준화한 값이다.
    ${(1)}$ $\frac{COV(x,y)}{\sigma_{x}\sigma_{y}}$ = $\frac{E[xy] + \mu_{x}\mu_{y}}{\sigma_{x}\sigma_{y}}$ = $\rho$

    위 공식에서 아래와 같은 파생 관계들을 정의할 수 있다.

    -. $E[xy] = \rho\sigma_{x}\sigma_{y} + \mu_{x}\mu_{y} = E[x]E[y] + Cov(x,y)$이고

    -. $COV(x,y)=\rho\sigma_{x}\sigma_{y}$와 같다.
  2. 상관계수와 조건부 기댓값의 관계(상관계수의 선형성)
    1) $E(y|x) = \mu_{y} + \rho\frac{\sigma_{y}}{\sigma_{x}}(x-\mu_{x})$ 라는 선형 관계가 성립된다.
    2) 위 관계를 아래와 같이 증명할 수 있다.
    $$E(y|x) = \int_{-\infty}^{\infty}y\cdot f_{y|x}(y|x)dy$ = $\frac{1}{f_{x}(x)}\int_{-\infty}^{\infty}y\cdot \frac{f_{x,y}(x,y)}{f_{x}(x)}dy$$
    위 식을 일단 선형방정식일것이다 라고 가정하고
    $$\frac{1}{f_{x}(x)}\int_{-\infty}^{\infty}y\cdot \frac{f_{x,y}(x,y)}{f_{x}(x)}dy = aX + b$에서 $\int_{-\infty}^{\infty}y\cdot \frac{f_{x,y}(x,y)}{f_{x}(x)}dy = f_{x}(x)(aX + b)$$
    양변을 dx로 적분하면
    $$\int \int_{-\infty}^{\infty}y\cdot \frac{f_{x,y}(x,y)}{f_{x}(x)}dxdy=\int f_{x}(x)(aX+b)dx$$
    -. 위 식의 좌변 $$\int \int_{-\infty}^{\infty}y\cdot \frac{f_{x,y}(x,y)}{f_{x}(x)}dxdy = \int y \cdot f_{y}(y)dy = E(Y)$$ 이고
    -. 위 식의 우변 $$\int f_{x}(x)(aX+b)dx$는 $E(aX+b) = aE(x) + b$$(기댓값의 선형성)
    즉,
    $E(y)=aE(x)+b$에서 $\mu_{y}=a\mu_{x}+b$
    다시, 이번엔 $$\int \int_{-\infty}^{\infty}y\cdot \frac{f_{x,y}(x,y)}{f_{x}(x)}dxdy=\int f_{x}(x)(aX+b)dx$$에서 양변에 x를 곱하고 적분하면
    -. $$\int \int_{-\infty}^{\infty}xy\cdot \frac{f_{x,y}(x,y)}{f_{x}(x)}dxdy=\int xf_{x}(x)(aX+b)dx$$
    -. 위와 같은 원리에 따라 좌변은 $E(xy)$가 되고, 우변은 $aE(x) + bE(x^2)$이 된다.
    -. 이 때, $$E[xy] = \rho\sigma_{x}\sigma_{y} + \mu_{x}\mu_{y}$$ 이므로, 
    $$\rho\sigma_{x}\sigma_{y} + \mu_{x}\mu_{y}$ = $a\mu_{x}+b(\mu_{x}^2 + \sigma^{2})$$
    $$a = \mu_{y} + \rho \frac{\sigma_{y}}{\sigma_{x}}\mu_{x}$$
    $$b =  \rho\frac{\sigma_{y}}{\sigma_{x}}$$
    위에 나온 모든식을 합쳐 정리하면 $E(y|x) = \mu_{y} + \rho\frac{\sigma_{y}}{\sigma_{x}}(x-\mu_{x})$ 이다.
  3. 상관계수의 해석
    1) 상관계수는 -1 ~ 1 사이의 값을 갖는다. -1은 두 확률변수가 완전하게 역의 관계, 즉 한쪽이 증가/감소하면 다른쪽은 반대로 감소 / 증가하는 역의 선형관계를 갖고 있음을 나타낸다.
    ${(1)}$ 중요한 것은, 상관계수는 두 확률변수가 선형 관계를 맺고 있다는 가정 하에 상관 관계를 측정한다는 것이다
    -. 선형성이란 아래의 위키피디아가 잘 설명하고 있다.(https://ko.wikipedia.org/wiki/%EC%84%A0%ED%98%95%EC%84%B1)

변수 X,Y의 관계에 따른 상관계수(-1 ~ 1)의 변화. https://commons.wikimedia.org/wiki/File:Correlation_examples.png

'수리통계' 카테고리의 다른 글

11. 분산 - 공분산 행렬  (0) 2023.05.16
9. 독립인 확률변수  (0) 2023.05.13
6. 다변량 분포(결합확률분포)  (0) 2023.05.09
7. 조건부 분포와 기댓값  (0) 2023.05.08
5. 확률변수의 부등식  (0) 2023.05.04