Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 프로그래머를 위한 선형대수 #선형대수 #행렬계산
- 미적분 #평균값 정리 #로피탈의 정리 #접선의 방정식
- 프로그래머를 위한 선형대수 #선형대수 #고유분해 #고윳값 #고유벡터
- 수리통계
- lightweightmmm
- Media Mix Modeling
- bayesian inference
- 미적분 #사인과 코사인의 도함수
- mmm
- bayesian
- 시계열분석 #Time-Series Analysis #이상탐지 #Anomaly Detection #Spectral Residual #CNN #SR-CNN
- Optimization
- 미적분 #접선의 방정식 #최적화 #뉴턴법 #뉴턴-랩슨법
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #야코비 회전법 #QR법 #하우스홀더반사 #행렬회전
- 프로그래머를 위한 선형대수 #선형대수 #LU분해
- 미적분
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #고유분해
- Marketing Mix Modeling
Archives
- Today
- Total
문과생 네버랜드의 데이터 창고
8. 상관계수 본문
- 공분산과 상관계수
1) 공분산은 X와 Y가 함께 변해갈때의 기댓값을 말한다.
${(1)}$ 수학적으로는 $COV(x,y)$ = $E[(x-\mu_{x})(y-\mu_{y})]$로 정의할 수 있다.
${(2)}$ 위 식을 정리하면 아래와 같이 논리를 전개할 수 있다.-. $E[(x-\mu_{x})(y-\mu_{y})]$ = $E[xy-y\mu_{x}-x\mu_{y}+\mu_{x}\mu_{y}]$ = $E[xy]-\mu_{x}E[y]-\mu_{y}E[x]+E[\mu_{x}\mu_{y}]$
-. 이 때, $\mu_{x}E[y] = \mu_{x}\mu_{y}$이고, $E[\mu_{x}\mu_{y}]$ = $\mu_{x}\mu_{y}$ 이므로 소거되며, 최종적으로 정리하면 $$E[(x-\mu_{x})(y-\mu_{y})] = E[xy] + \mu_{x}\mu_{y}$$
${(3)}$ 이 의미를 곰곰히 생각해보면, 한 확률변수가 변해갈 때 다른 확률변수가 따라가는 관계에 대한 척도로 볼 수 있다.
2) 상관계수는 공분산을 양 확률변수의 표준편차로 표준화한 값이다.${(1)}$ $\frac{COV(x,y)}{\sigma_{x}\sigma_{y}}$ = $\frac{E[xy] + \mu_{x}\mu_{y}}{\sigma_{x}\sigma_{y}}$ = $\rho$
위 공식에서 아래와 같은 파생 관계들을 정의할 수 있다.
-. $E[xy] = \rho\sigma_{x}\sigma_{y} + \mu_{x}\mu_{y} = E[x]E[y] + Cov(x,y)$이고
-. $COV(x,y)=\rho\sigma_{x}\sigma_{y}$와 같다. - 상관계수와 조건부 기댓값의 관계(상관계수의 선형성)
1) $E(y|x) = \mu_{y} + \rho\frac{\sigma_{y}}{\sigma_{x}}(x-\mu_{x})$ 라는 선형 관계가 성립된다.
2) 위 관계를 아래와 같이 증명할 수 있다.$$E(y|x) = \int_{-\infty}^{\infty}y\cdot f_{y|x}(y|x)dy$ = $\frac{1}{f_{x}(x)}\int_{-\infty}^{\infty}y\cdot \frac{f_{x,y}(x,y)}{f_{x}(x)}dy$$
위 식을 일단 선형방정식일것이다 라고 가정하고
$$\frac{1}{f_{x}(x)}\int_{-\infty}^{\infty}y\cdot \frac{f_{x,y}(x,y)}{f_{x}(x)}dy = aX + b$에서 $\int_{-\infty}^{\infty}y\cdot \frac{f_{x,y}(x,y)}{f_{x}(x)}dy = f_{x}(x)(aX + b)$$
양변을 dx로 적분하면
$$\int \int_{-\infty}^{\infty}y\cdot \frac{f_{x,y}(x,y)}{f_{x}(x)}dxdy=\int f_{x}(x)(aX+b)dx$$
-. 위 식의 좌변 $$\int \int_{-\infty}^{\infty}y\cdot \frac{f_{x,y}(x,y)}{f_{x}(x)}dxdy = \int y \cdot f_{y}(y)dy = E(Y)$$ 이고
-. 위 식의 우변 $$\int f_{x}(x)(aX+b)dx$는 $E(aX+b) = aE(x) + b$$(기댓값의 선형성)
즉, $E(y)=aE(x)+b$에서 $\mu_{y}=a\mu_{x}+b$
다시, 이번엔 $$\int \int_{-\infty}^{\infty}y\cdot \frac{f_{x,y}(x,y)}{f_{x}(x)}dxdy=\int f_{x}(x)(aX+b)dx$$에서 양변에 x를 곱하고 적분하면
-. $$\int \int_{-\infty}^{\infty}xy\cdot \frac{f_{x,y}(x,y)}{f_{x}(x)}dxdy=\int xf_{x}(x)(aX+b)dx$$
-. 위와 같은 원리에 따라 좌변은 $E(xy)$가 되고, 우변은 $aE(x) + bE(x^2)$이 된다.
-. 이 때, $$E[xy] = \rho\sigma_{x}\sigma_{y} + \mu_{x}\mu_{y}$$ 이므로,
$$\rho\sigma_{x}\sigma_{y} + \mu_{x}\mu_{y}$ = $a\mu_{x}+b(\mu_{x}^2 + \sigma^{2})$$
$$a = \mu_{y} + \rho \frac{\sigma_{y}}{\sigma_{x}}\mu_{x}$$
$$b = \rho\frac{\sigma_{y}}{\sigma_{x}}$$
위에 나온 모든식을 합쳐 정리하면 $E(y|x) = \mu_{y} + \rho\frac{\sigma_{y}}{\sigma_{x}}(x-\mu_{x})$ 이다. - 상관계수의 해석
1) 상관계수는 -1 ~ 1 사이의 값을 갖는다. -1은 두 확률변수가 완전하게 역의 관계, 즉 한쪽이 증가/감소하면 다른쪽은 반대로 감소 / 증가하는 역의 선형관계를 갖고 있음을 나타낸다.
${(1)}$ 중요한 것은, 상관계수는 두 확률변수가 선형 관계를 맺고 있다는 가정 하에 상관 관계를 측정한다는 것이다
-. 선형성이란 아래의 위키피디아가 잘 설명하고 있다.(https://ko.wikipedia.org/wiki/%EC%84%A0%ED%98%95%EC%84%B1)
'수리통계' 카테고리의 다른 글
11. 분산 - 공분산 행렬 (0) | 2023.05.16 |
---|---|
9. 독립인 확률변수 (0) | 2023.05.13 |
6. 다변량 분포(결합확률분포) (0) | 2023.05.09 |
7. 조건부 분포와 기댓값 (0) | 2023.05.08 |
5. 확률변수의 부등식 (0) | 2023.05.04 |