Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- lightweightmmm
- 프로그래머를 위한 선형대수 #선형대수 #고유분해 #고윳값 #고유벡터
- bayesian inference
- 시계열분석 #Time-Series Analysis #이상탐지 #Anomaly Detection #Spectral Residual #CNN #SR-CNN
- 프로그래머를 위한 선형대수 #선형대수 #LU분해
- 미적분 #사인과 코사인의 도함수
- mmm
- Optimization
- 미적분
- bayesian
- 미적분 #평균값 정리 #로피탈의 정리 #접선의 방정식
- 프로그래머를 위한 선형대수 #선형대수 #행렬계산
- Marketing Mix Modeling
- Media Mix Modeling
- 미적분 #접선의 방정식 #최적화 #뉴턴법 #뉴턴-랩슨법
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #고유분해
- 수리통계
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #야코비 회전법 #QR법 #하우스홀더반사 #행렬회전
Archives
- Today
- Total
문과생 네버랜드의 데이터 창고
17-1 스튜던트의 정리 본문
-
T분포를 발견한 스튜던트가 T분포 증명 과정에서 파생시킨 따름 정리들
1) 다음의 네개 따름 정리를 한데 묶어 '스튜턴트의 정리'라고 표현한다.
2) 스튜던트의 정리는 추론통계에서 주로 사용되는 T검정은 물론이고 정규분포와 관련된 다양한 추론에 활용되므로 각각의 정리가 어떤 의미인지는 알고 넘어가는 것이 좋다.
$X_{1}, X_{2}, ..., X_{n}$을 각각 평균 $\mu$와 분산 $\sigma^{2}$을 따르는 i.i.d인 확률변수라고 하자.
확률변수 $\overline{X} = \frac{1}{n}\sum_{i=}^{n}(X_{i})$ 그리고 $S^{2} = \frac{1}{n-1}\sum_{i=1}^{n}(X_{i} - \overline{X})^{2}$
이라고 정의할때, 아래의 정리는 참이다.1. $\overline{x}$는 $N(\mu, \frac{\sigma^{2}}{n})$를 따르는 확률변수이다. 2. $\overline{x}$와 $S^{2}$은 서로 독립이다. 3. $\frac{(n-1)S^{2}}{\sigma^{2}}$은 $x^{2}(n-1)$ 분포를 따르는 확률변수이다. 4. 확률변수 $T = \frac{\overline{X} - \mu}{S/\sqrt{n}}$ 는 자유도 n-1인 T분포를 따른다.
2) 각각의 따름 정리에 대한 증명은 다음과 같이 할 수 있다.
${(1)}$ $\overline{x}$는 $N(\mu, \frac{\sigma^{2}}{n})$를 따르는 확률변수이다.$x_{1}, ..., x_{n}$을 $N(\mu_{i}, \sigma_{i}^{2})$을 따르는 확률변수라 하고, $a_{1}, ..., a_{n}$을 상수라 하자.
정규분표의 가법성에 따라 다음이 성립한다.
$$Y = a \cdot X = \sum_{i=1}^{n}a_{i}x_{i}$$
이 때, Y에 대한 mgf $M_{y}(t)$를 구하면 정규분포의 mgf에 따라
$$M_{y}(t) =E[exp(t\sum_{i=1}^{n}a_{i}x_{i})] = [exp(ta_{1}\mu_{1} + (1/2)t^{2}a_{1}^{2}\sigma_{1}^{2})] \cdot ... \cdot [exp(ta_{n}\mu_{n} + (1/2)t^{2}a_{n}^{2}\sigma_{n}^{2})]$$
$$ = exp[t(a_{1}\mu_{1} + ... + a_{n}\mu_{n})] + (1/2)t^{2}(a_{1}^{2}\mu_{1}^{2} + ... +a_{n}^{2}\mu_{n}^{2})]$$
$$ = exp(t\sum a_{i}\mu_{i} + (1/2)t^{2}\sum a_{i}^{2}\mu_{i}^{2})$$
이는 $N(\sum a_{i}\mu_{i}, \sum a_{i}^{2}\mu_{i}^{2})$을 따르는 정규분포이다.
이 때, $a_{i} = [n^{-1}]$으로 두면
$n^{-1}\sum \mu_{i} = \mu$ 이고 $n^{-2}\sum \mu_{i}^{2} = \frac{\sigma^{2}}{n}$ 이므로
$$N(\mu, \frac{\sigma^{2}}{n})$$
${(2)}$ $\overline{x}$와 $S^{2}$은 서로 독립이다.X = [$x_{1}, ..., x_{n}$]을 $N(\mu_{i}, \sigma_{i}^{2})$을 따르는 i.i.d인 확률표본들의 확률벡터라고 하자.
이 때, X는 다변량 정규분포가 된다.
다변량 정규분포 X의 평균과 분산은 각각 다음과 같다.
$\mu = \mu \cdot [1,1,...,1]^{T}$, $sigma^{2} = \sigma^{2}I$
한편, 다음의 선형변환을 정의하자.
$V = [1/n, ..., 1/n]$ 일떄 $v^{T}X$
이는 즉 X의 평균 $\overline{X}$를 의미한다.
마지막으로, $\overline{X}$와 관련된 확률변수 Y를 다음과 같이 정의하자
$Y = [X_{1} - \overline{X}, ... , X_{n} - \overline{X}]$
이 때, 변환 $$W = \begin{bmatrix} \overline{X} \\ Y \end{bmatrix} = \begin{bmatrix} V^{T} \\ I - 1V^{T} \end{bmatrix} X$$로 정의하자.
(단, $1$은 n차원의 1로만 이루어진 벡터이다)
다변량 정규분포의 선형변환을 이용하면, 변환 확률변수 W의 분산을 아래와 같이 얻을 수 있다.
공분산 행렬 $\Sigma$는
$$\Sigma = \begin{bmatrix} V^{T} \\ I - 1V^{T} \end{bmatrix} \sigma^{2}I \begin{bmatrix} V^{T} \\ I - 1V^{T} \end{bmatrix}^{T} \\ = \begin{bmatrix} \frac{1}{n} && 0_{n}^{T} \\ 0_{n} && I - 1V^{T} \end{bmatrix}$$
이 공분산 행렬의 비대각성분은 0이므로, $\overline{X}$와 Y는 독립이다.
또한, 표준편차 $S^{2} = (n-1)^{-1}(Y^{T}Y)$이므로, $\overline{X}$와 $S^{2}$ 또한 독립이다.
${(3)}$ $\frac{(n-1)S^{2}}{\sigma^{2}}$은 $x^{2}(n-1)$ 분포를 따르는 확률변수이다.
$V = \sum_{i=1}^{n}(\frac{x_{i} - \mu}{\sigma})^{2}$ 라는 확률변수를 정의하자.
$V$는 $N(0,1)$을 따르는 확률변수의 제곱과 같고, 이는 $x^{2}(1)$을 따른다.
다시 말해 $\sum_{i=1}^{n}x^{2}(n)$ 이므로 카이제곱 분포의 가법성에 따라 V는 $x^2(n)$의 분포를 따른다.
한편 ,V를 다음과 같은 절차로 변형한다고 하자.
$$\sum_{i=1}^{n} (\frac{(X_{i} - \overline{X}) + (\overline{X} - \mu)}{\sigma})^{2}$$
위 식의 제곱항을 전개하면
$$((X_{i} - \overline{X}) + (\overline{X} - \mu))^{2} = \sum_{i=1}^{n}(x_{i} - \overline{x})^{2} + \sum_{i=1}^{n}2(X_{i} - \overline{X})(\overline{X} - \mu) + \sum_{i=1}^{n}(\overline{X} - \mu)^{2} $$
가운데 교차항을 보면, $\sum_{i=1}^{n}2(X_{i} - \overline{X})$ 는 편차의 총합이므로
당연히 0이 되기 때문에 가운데 교차항은 0으로 소거된다.
뒤쪽 $\sum_{i=1}^{n}(\overline{X} - \mu)^{2}$는 i에 의존하지 않는 상수이기 때문에
$$\frac{n(\overline{X} - \mu)^{2}}{\sigma} = \frac{n(\overline{X} - \mu)^{2}}{\sigma/\sqrt{n}}$$ 이다.
분모에 $\sigma$를 붙여서 다시 정리하면
$$ \sum_{i=1}^{n}(\frac{x_{i} - \overline{x}}{\sigma})^{2} + \frac{\overline{X} - \mu}{\sigma/\sqrt{n}}^{2} = \frac{(n-1)s^{2}}{\sigma^{2}} + \frac{\overline{X} - \mu}{\sigma/\sqrt{n}}^{2}$$
한편, 우리는 ${(2)}$ 에서 $S^{2}$과 $\overline{x}$은 서로 독립임을 보였다.
두 항은 각각 $S^{2}$과 $\overline{x}$에만 의존하는 항들이므로, 두 항은 서로 독립이다.(독립성 증명 완료)
한편, 도출한 $$V =\frac{(n-1)s^{2}}{\sigma^{2}} + \frac{\overline{X} - \mu}{\sigma/\sqrt{n}}^{2}$$ 식에 대하여 고찰해보면
-. $V$ ~ $\sum_{i=1}^{n}X^{2}(n)$ 임을 보였다.
-. 뒤쪽항 $\frac{\overline{X} - \mu}{\sigma/\sqrt{n}}^{2}$는 표준정규분포의 제곱꼴이므로, $x^{2}(1)$을 의미한다.
따라서 필연적으로, 그 가운데 끼어있는 항
$\frac{(n-1)s^{2}}{\sigma^{2}}$는 $x^{2}(n-1)$을 따라야 카이제곱 분포의 가법성상 논리적 오류가 없어지게 된다.
($x^{2}(n-1)$ 증명 완료)
${(4)}$ 확률변수 $T = \frac{\overline{X} - \mu}{S/\sqrt{n}}$ 는 자유도 n-1인 T분포를 따른다.$T = \frac{\overline{X} - \mu}{s/\sqrt{n}}$ 에서, 분자와 분모를 각각 $\frac{\sigma}{\sqrt{n}}$ 으로 나누면
$T = \frac{\frac{\overline{X} - \mu}{\sigma/\sqrt{n}}}{\frac{s/\sqrt{n}}{\sigma/\sqrt{n}}}$
이 때, 분모부분의 $\sqrt{n}$을 각각 소거하면
$$T = \frac{\frac{\overline{X} - \mu}{\sigma/\sqrt{n}}}{\frac{s}{\sigma}}$$
분모의 (분자/분모)에 $\sqrt(n-1)$을 각각 곱해주면
$$T = \frac{\frac{\overline{X} - \mu}{\sigma/\sqrt{n}}}{\frac{\sqrt{n-1}s}{\sqrt{n-1}\sigma}} = \frac{\frac{\overline{X} - \mu}{\sigma/\sqrt{n}}}{\sqrt{\frac{(n-1)s^{2}}{\sigma^{2}}\cdot \frac{1}{n-1}}} $$
이 때, 분자와 분모를 각각 살펴보자
-. $W = \frac{\overline{X} - \mu}{\sigma/\sqrt{n}}$ 는 $N(0,1)$을 따르는 확률변수이다.
-. $V = \frac{(n-1)s^{2}}{\sigma^{2}}$는 ${(3)}$에서 $X^{2}(n-1)$을 따르는 확률변수임을 증명하였다.
즉, 다시 정리하면
$$T = \frac{W}{\sqrt{V/(n-1)}}$$ 꼴이므로, 이는 자유도 n-1인 T분포임을 증명할 수 있다.
'수리통계' 카테고리의 다른 글
19. 우도와 최대우도추정량 (0) | 2023.06.27 |
---|---|
18. 확률표본과 모수, 그리고 통계량 (0) | 2023.06.26 |
17. T분포와 F분포 (0) | 2023.06.22 |
16. 혼합분포 (0) | 2023.06.21 |
15-1 다변량 정규분포 (0) | 2023.06.20 |