Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 프로그래머를 위한 선형대수 #선형대수 #행렬계산
- Marketing Mix Modeling
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #고유분해
- 시계열분석 #Time-Series Analysis #이상탐지 #Anomaly Detection #Spectral Residual #CNN #SR-CNN
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #야코비 회전법 #QR법 #하우스홀더반사 #행렬회전
- 프로그래머를 위한 선형대수 #선형대수 #고유분해 #고윳값 #고유벡터
- bayesian inference
- 미적분 #평균값 정리 #로피탈의 정리 #접선의 방정식
- Media Mix Modeling
- 프로그래머를 위한 선형대수 #선형대수 #LU분해
- 수리통계
- mmm
- bayesian
- 미적분 #접선의 방정식 #최적화 #뉴턴법 #뉴턴-랩슨법
- Optimization
- 미적분 #사인과 코사인의 도함수
- lightweightmmm
- 미적분
Archives
- Today
- Total
문과생 네버랜드의 데이터 창고
44. 상관관계와 독립성 검정 본문
- 상관관계가 낮을 때 두 변수는 독립적인가?
1) 앞서 우리는 상관계수에서 상관계수란 공분산의 표준화 형이며, 공분산은 두 변수 X와 Y가 함께 변해갈때의 기댓값을 의미한다고 설명하였다.
${(1)}$ 상관계수는 -1 ~1 사이의 값을 가지며, 0은 두 확률변수의 상관관계가 없다는 것을 의미한다.
${(2)}$ 문제는 상관계수의 측정은 어디까지나 실현된 표본을 중심으로 측정하는 통계량에 불과하다는 점이다.
-. 모집단 차원에서 살펴보면, 두 확률변수가 진짜로 상관관계가 존재할까?(즉, $\rho \neq 0$ 일까?)
-. 이런 의문에 해답을 얻기 위해 상관관계도 마찬가지로 어떤 가설에 기반한 독립성 검정을 수행할 수 있다.
2) 독립성 검정의 유도
${(1)}$ $[X_{i}]$와 $[Y_{i}]$가 평균 $\mu_{1}$, $\mu_{2}$이고 분산이 $\sigma_{1}^{2}$, $\sigma_{2}^{2}$이고 상관계수가 $\rho$인 이변량 정규분포에서 추출한 i.i.d 라고 하자.
다음의 가설을 검정하고자 한다.
$$H_{0} : \rho = 0 \ VS \ H_{1} : \rho \neq 0$$
가설 검정을 위한 우도비 함수를 정의하자
X,Y가 이변량 정규분포를 따른다고 하였으므로 우도 함수는
$$L(\theta ; X_{n}, Y_{n}) = f(x_{1},y_{1}, \theta) \cdot f(x_{1},y_{1}, \theta) \dots f(x_{n},y_{n}, \theta)$$
각각의 가설공간하에서 이변량 정규분포의 우도함수를 이용하여 우도비를 정의하면
$$\Lambda = \frac{L(\rho=0;x_{n}, y_{n})}{L(\rho\neq0;x_{n}, y_{n})} = \frac{\sum(x_{i}-\overline{x})(y_{i}-\overline{y})}{\sqrt{\sum(x_{i}-\overline{x})^{2}(y_{i}-\overline{y})^{2}}}$$ 이다.
이 때, 이 우도비를 표본에 의거한 상관계수 R이라고 한다.
이제, 이 상관계수 통계량 R을 최강력 검정에 기반하여 알려진 분포로 변환할것이다.
이 우도비가 단조우도비라고 하자.
Y에 대한 X의 조건부 분포를 정의한다고 하자.
$Y_{i} | X_{1} = x_{1}, \dots X_{n} = x_{n}$
즉, 이는 $x_{1}, \dots, x_{n}$이라는 표본의 실현값이 주어졌을때의 $Y_{i}$의 조건부 분포이다.
$Y_{i}$는 i.i.d이고, $\rho = 0$일 때 $X_{i}$와 $Y_{i}$도 서로 확률적으로 독립이고, 이변량 정규분포에서
단순히 각각의 확률변수를 갖는 pdf의 단순결합으로 분리가 가능하다. 즉
$$pdf(y_{i} | x_{1}, \dots, x_{n}) = \begin{bmatrix}\frac{1}{\sqrt{2\pi}\sigma_{y}}\end{bmatrix}^{\frac{n}{2}}exp\begin{pmatrix}-\frac{\sum(y_{i}-\mu_{y})^{2}}{2\sigma_{y}^{2}}\end{pmatrix}$$
다시 말해 $\rho=0$일 경우 $Y_{i} | X_{1} = x_{1}, \dots X_{n} = x_{n} = Y_{i}$ 이다.
$\rho = 0$라는 조건을 추가하여 다시 정의한 우도비 함수를 $\Lambda_{c} = R_{c}$로 재정의하자. 다시 말해
$$R_{c} = \frac{\sum(x_{i}-\overline{x})([Y_{i} | X_{1} = x_{1}, \dots X_{n} = x_{n}]-\overline{y})}{\sqrt{\sum(x_{i}-\overline{x})^{2}([Y_{i} | X_{1} = x_{1}, \dots X_{n} = x_{n}]-\overline{y})^{2}}} = \frac{\sum(x_{i}-\overline{x})(y_{i}-\overline{y})}{\sqrt{\sum(x_{i}-\overline{x})^{2}(y_{i}-\overline{y})^{2}}} = R$$
$R_{c}$를 이용한 다음의 함수를 정의하자
$g(|R_{c}|) = \frac{R_{c}\sqrt{\sum(Y_{i} - \overline{Y})^{2}}}{\sqrt{\sum(x_{i}-\overline{x})^{2}}} = \frac{\sum(x_{i}-\overline{x})(Y_{i}-\overline{Y})}{\sum(x_{i}-\overline{x})^{2}}= \frac{\sum(x_{i}-\overline{x})Y_{i}-\sum(x_{i}-\overline{x})\overline{Y}}{\sum(x_{i}-\overline{x})^{2}}$
이 때, $\sum(x_{i}-\overline{x})\overline{Y}$는 어떤 고정된 상수 $\overline{Y}$와 편차 $(x_{i}-\overline{x})$의 합이므로 소거된다. 따라서
$$\frac{\sum(x_{i}-\overline{x})Y_{i}-\sum(x_{i}-\overline{x})\overline{Y}}{\sum(x_{i}-\overline{x})^{2}} = \frac{\sum(x_{i}-\overline{x})Y_{i}}{\sum(x_{i}-\overline{x})^{2}}$$
이 형태는 매우 익숙한데, 바로 회귀분석에서 모수 $\beta$에 대한 꼴이 정확히 저 형태였기 때문이다.
따라서, 동일한 논리에 따라 $R_{c}$에 대한 검정통계량 도출이 이제 가능하다.
$$T_{\beta} = \frac{\sqrt{(\widehat{\beta} - \beta)(x_{i} - \overline{x})^{2}}/\sigma}{\sqrt{\frac{n\widehat{\sigma}^{2}}{\sigma^{2}}/(n-2)}} = \frac{(\widehat{\beta} - \beta)}{\sqrt{\frac{n\widehat{\sigma^{2}}}{(n-2)\sum(x_{i}-\overline{x})^{2}}}} \sim T(n-2)$$
에서 $\beta = \frac{R_{c}\sqrt{\sum(Y_{i} - \overline{Y})^{2}}}{\sqrt{\sum(x_{i}-\overline{x})^{2}}}$로 놓으면
$\widehat{\alpha} = \overline{Y}$이고
$\widehat{\sigma^{2}} = \frac{1}{n}\sum[Y_{i} - \overline{Y} - (\frac{R_{c}\sqrt{\sum(Y_{i} - \overline{Y})^{2}}}{\sqrt{\sum(x_{i}-\overline{x})^{2}}})(x_{i} - \overline{x})^{2}]$ 이다.
따라서
$$T_{R_{c}}=\frac{R_{c}\sqrt{\sum(Y_{i} - \overline{Y})^{2}}/\sqrt{\sum(x_{i}-\overline{x})^{2}}}{\sqrt{\frac{\sum[Y_{i} - \overline{Y} - (R_{c}\sqrt{\sum(Y_{i} - \overline{Y})^{2}}/\sqrt{\sum(x_{i}-\overline{x})^{2}})(x_{i} - \overline{x})^{2}]}{(n-2)\sum(x_{i}-\overline{x})^{2}}}} \\ = \frac{R_{c}\sqrt{n-2}}{\sqrt{1-R_{c}^{2}}}$$
는 $T(n-2)$의 분포를 따른다.
'수리통계' 카테고리의 다른 글
45. 베이지안 통계와 베이지안 절차 (2) | 2023.08.06 |
---|---|
39-1. 통계학적 2차 형식(다변량) (0) | 2023.08.04 |
43. 회귀분석 (0) | 2023.08.03 |
42. 이원배치 분산분석 (0) | 2023.08.02 |
41. 다중비교(사후분석, post-hoc) (0) | 2023.08.01 |