Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 프로그래머를 위한 선형대수 #선형대수 #행렬계산
- Media Mix Modeling
- 미적분 #접선의 방정식 #최적화 #뉴턴법 #뉴턴-랩슨법
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #야코비 회전법 #QR법 #하우스홀더반사 #행렬회전
- Marketing Mix Modeling
- lightweightmmm
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #고유분해
- bayesian
- Optimization
- 시계열분석 #Time-Series Analysis #이상탐지 #Anomaly Detection #Spectral Residual #CNN #SR-CNN
- 미적분 #평균값 정리 #로피탈의 정리 #접선의 방정식
- 프로그래머를 위한 선형대수 #선형대수 #LU분해
- mmm
- bayesian inference
- 프로그래머를 위한 선형대수 #선형대수 #고유분해 #고윳값 #고유벡터
- 미적분 #사인과 코사인의 도함수
- 미적분
- 수리통계
Archives
- Today
- Total
문과생 네버랜드의 데이터 창고
29. 중심극한정리 본문
-
중심극한정리의 중요성
1) 중심극한정리의 정의
${(1)}$ 중심극한정리는
-. (모수를 모르는 어떤 임의의 분포에서) 샘플들을 많이 추출하여
-. 모수를 추정하도록 하는 샘플들의 통계량(즉, 추정량)을 구할 경우
-. 그 통계량은 많은 경우 정규분포로 수렴한다.
-. 이 때, 통계량에는 우리가 익히 알고있는 평균 등이 포함된다. 특히 평균은 $N(\mu, \frac{\sigma^{2}}{n})$, 혹은 표준화를 수행할 경우 $N(0,1)$로 수렴한다.
${(2)}$ 엄밀한 정의는 다음과 같이 내릴 수 있다.$[X_{1}, \dots X_{n}]$을 평균 $\mu$와 분산 $\sigma^{2}$인 분포에서 추출한 확률표본의 집합이라고 하자.
다음의 통계량을 정의하자
$$Y = \frac{\sqrt{n}(\overline{X} - \mu)}{\sigma} = \frac{\sum(X_{i} - n\mu)}{\sigma\sqrt{n}}$$
이 때, $Y \sim N(0,1)$은 참이다.
-. 예를 들면, A / B 테스팅을 수행할 때 A안에 유입된 사용자 100명이 클릭한 횟수가 23회라고 한다면, 이 실험을 독립적인 잠재 고객군$[Customer_{1}, Customer_{2},...]$를 상대로 약 1000...n번 수행한다면 그 평균은 [20,23,26,17,....,34]와 같이 매번 다를 수 있지만 평균적으로 클릭 횟수 23회, 표본표준편차 $\frac{\sigma^{2}}{n}$인 정규분포를 띄게 된다.
-. 이를 토대로 A안과 B안이 동일한 가설 공간(Hypothesis Space)에서 A안에 대하여 B안의 클릭 횟수의 평균이 얼마나 유의미하게 다른지 확률적으로 평가를 해낼 수 있다.
2) 중심극한정리가 현대 통계학에서 중요한 이유
${(1)}$ 모집단의 분포가 어떤 분포를 따르는지 알 필요가 없다
-. 대부분의 (모수적) 통계적 추론은 모수를 가정하고, 그 모수를 추정하는 통계량을 기반으로 추론을 수행한다.
-. 문제는, 보통 통계적 추론은 현실에서 실현된 소수의 샘플을 기반으로 수행하기 때문에 이 샘플이 어떤 모수를 가지는 분포에서 추출된건지 알 수 없다는 점에 있다.
-. 중심극한정리는 모집단의 분포가 어떤 모양을 가지는지 신경쓰지 않아도 되게 만들어준다.
-. 왜냐하면 어떤 분포를 가지던지 간에 그곳에서 추출한 샘플들의 통계량은(그 샘플들의 수만 충분하다면) 무한히 추출했다고 가정했을 때 정규분포로 수렴한다는 것을 보장하기 때문이다.n = 30인 표본을 1000개씩 중복 허용 랜덤 추출하여 10번, 100번, ..., 100000번 평균을 계산했을때의 그 평균의 히스토그램.
처음엔 어떤 분포인지도 알 수 없던(10번 추출) 평균의 분포는
평균을 추출하는 횟수가 많아질수록 점점 정규분포와 비슷한 모양(100000번 추출)으로수렴한다. - 중심극한정리
1) 중심극한정리를 이해하기 위한 필수지식
${(1)}$ 테일러 전개
-. MGF에 대하여 테일러 전개를 통해 간편함을 꾀한다.
${(2)}$ 분포수렴
-. 특히, 적률생성함수 방법론에 대한 이해가 필요하다
${(3)}$ 정규분포
-. 표준정규분포의 mgf꼴을 확인할 필요가 있다.
2) 중심극한정리의 증명
어떤 분포를 따르는지 알려지지 않은 확률변수 X에서 확률표본 $[X_{1}, \dots, X_{n}]$을 추출했다고 하자.
또, 각각의 확률변수들엔 모두 적률생성함수(MGF)가 존재한다.
확률표본을 이용한 통계량
$$Y = \frac{\sqrt{n}(\overline{X} - \mu)}{\sigma} = \frac{\sum(X_{i} - n\mu)}{\sigma\sqrt{n}}$$ 를 정의하자.
확률표본 $X_{i}$의 선형결합으로서 정의한 Y의 적률생성함수는 아래와 같이 정의할 수 있다.
$$M(t;n) = E[exp(t\frac{\sum(X_{i} - n\mu)}{\sigma\sqrt{n}})]$$
기댓값의 성질과, 지수함수의 성질을 이용하면 다음과 같이 나타낼 수 있다.
$$E[exp(t\frac{\sum(X_{i} - n\mu)}{\sigma\sqrt{n}})] \\
= E[exp(t\frac{(X_{1} - \mu)}{\sigma\sqrt{n}}) \cdot exp(t\frac{(X_{2} - \mu)}{\sigma\sqrt{n}}) \cdot \dots \cdot exp(t\frac{(X_{n} - \mu)}{\sigma\sqrt{n}})] \\
= E[exp(t\frac{(X_{1} - \mu)}{\sigma\sqrt{n}})] \cdot E[exp(t\frac{(X_{2} - \mu)}{\sigma\sqrt{n}})] \cdot \dots \cdot E[exp(t\frac{(X_{n} - \mu)}{\sigma\sqrt{n}})]$$
한편, 확률표본 $X_{1}, \dots X_{n}$의 기댓값을 구한다는것은, 그 원천인 확률변수 X의 기댓값을 구하는것과 동치이다.
따라서 위 식은 아래와 같이 변형할 수 있다.
$$E[exp(t\frac{(X- \mu)}{\sigma\sqrt{n}})] \cdot E[exp(t\frac{(X - \mu)}{\sigma\sqrt{n}})] \cdot \dots \cdot E[exp(t\frac{(X - \mu)}{\sigma\sqrt{n}})] \\
= \begin{Bmatrix}
E[exp(t\frac{(X - \mu)}{\sigma\sqrt{n}})]
\end{Bmatrix}^{n} \dots ① $$
이제, 확률표본이 아닌 확률변수 X에 대한 MGF를 구한다.
다음의 변환된 확률변수를 정의하자
$$Z = (X - \mu)$$
이 때, Z의 MGF는 X를 이용하여 다음과 같이 정의할 수 있다.
$$m(t) = E[exp(t(x-\mu))]$$
$m(t)$에 대하여 2차까지 테일러 전개를 수행하면
$$m(t) = 1 + m'(0)t + \frac{m''(\xi)}{2}t^{2}$$
이 떄, $\xi$는 어떤 임의의 상수이다.
MGF의 0 근처에서 정의된 1계미분은 1차적률과 같고, 그 2계미분은 2차적률과 같다.
-. 1차적률은 즉 기댓값이므로 $(X - \mu)$에 대한 기댓값을 구하면
$$E(X - \mu) = 0$$
-. 2차 적률 $(X-\mu)$에 대하여 구하면
$$E[(X - \mu)^{2}]은 0이 아닌 어떤 값이다.$$
위 사실을 이용하여 테일러 전개식을 채우면
$$m(t) = 1 + \frac{m''(\xi)}{2}t^{2}$$
$\frac{\sigma^{2}t^{2}}{2}$를 넣고 빼면
$$m(t) = 1 + \frac{\sigma^{2}t^{2}}{2} + \frac{[m''(\xi) - \sigma^{2}]t^{2}}{2}$$
한편, 위에서 도출한 식 ① 을 위에서 구한 $m(t)$ 형식으로 표현하면
$$\begin{Bmatrix}
E[exp(t\frac{(X - \mu)}{\sigma\sqrt{n}})]
\end{Bmatrix}^{n} = [m(\frac{t}{\sigma\sqrt{n}})]^{n} \dots ②$$
$m(\frac{t}{\sigma\sqrt{n}})$는 m(t)에서 t를 $\frac{t}{\sigma\sqrt{n}}$으로 대치한 값이다.
이를 반영하여 테일러식을 다시 적으면
$$m(\frac{t}{\sigma\sqrt{n}}) = 1 + \frac{\sigma^{2}(\frac{t}{\sigma\sqrt{n}})^{2}}{2} + \frac{[m''(\xi) - \sigma^{2}](\frac{t}{\sigma\sqrt{n}})^{2}}{2} \\
=1 + \frac{t^{2}}{2n} + \frac{[m''(\xi) - \sigma^{2}]t^{2}}{2n\sigma^{2}} $$
이를 식 ②에다 집어넣으면
$$\begin{Bmatrix}
1 + \frac{t^{2}}{2n} + \frac{[m''(\xi) - \sigma^{2}]t^{2}}{2n\sigma^{2}}]
\end{Bmatrix}^{n} \dots ③$$
한편, 우리는 MGF 방법의 예제에서 지수함수의 극한과 관련한 다음의 정리를 사용하였다.
$$lim_{n \rightarrow \infty}[1 + \frac{b}{n} + \frac{\psi(n)}{n}]^{cn} = lim_{n \rightarrow \infty}[1 + \frac{b}{n}] = e^{bc}$$
위 정리에 대하여 식 ③을 대입하여 살펴보면
-. b는 $\frac{t^{2}}{2}$이다.
-. c는 1과 같다.
따라서, $$lim_{n \rightarrow \infty} \begin{Bmatrix}
1 + \frac{t^{2}}{2n} + \frac{[m''(\xi) - \sigma^{2}]t^{2}}{2n\sigma^{2}}]
\end{Bmatrix}^{n} = e^{\frac{t^{2}}{2}}$$
한편, 이는 표준정규분포의 mgf와 동일한것을 알 수 있다.
따라서, 우리는 아래와 같이 결론내릴 수 있다.
$$ Y \overset{D}{\rightarrow} N(0,1)$$ - 중심극한정리를 배경에 깔고있는 통계적 추론
1) 모평균검정
${(1)}$ 양측 가설검정에서 다음의 결정식을 활용하였다.
$$ \frac{\overline{X} - \mu}{s/\sqrt{n}} \overset{D}{\rightarrow} N(0,1)$$
${(2)}$ 이제, 이 결정식에 숨어있는 근거를 다음과 같이 나타낼 수 있다.
$$\frac{\overline{X} - \mu}{s/\sqrt{n}} = (\frac{\sigma}{S}) \cdot \frac{(\overline{X} - \mu)}{\sigma / \sqrt{n}}$$
로 나타낼 수 있다.
이 때, 우리는 다음과 같이 표본분산의 일치성을 증명하였다.
$S^{2} \overset{p}{\rightarrow} \sigma^{2}$
따라서, 슬러츠키 정리에 따라
$\frac{\sigma}{S} \overset{p}{\rightarrow} 1$
한편, $\frac{(\overline{X} - \mu)}{\sigma / \sqrt{n}}$는 CLT에 따라 $N(0,1)$로 분포수렴한다.
따라서 명제가 성립한다.
2) 모비율검정
${(1)}$ 신뢰구간에서 잠시 살펴봤지만, 기본적으로 $p = \sum\frac{X_{i}}{n}$이라는 사실을 이용하여 평균으로 간주할 수 있음을 보였다.
${(2)}$ 이제, 이항분포에서 중심극한정리를 이용해 모비율 검정이라고 불리는 검정 방법론을 도출할 것이다.$[X_{1}, \dots, X_{n}]$을 $b(1,p)$에서 추출한 확률표본이라고 하자.
이 떄, 다음의 통계량을 정의한다.
$$Z = \sum_{i=1}^{n} X_{i}$$
이 때, 이항분포의 정의에 따라 $Z \sim b(n,p)$이다.
한편, 우리는 이항분포의 모수 $p$에 대한 불편추정량은 $\sum\frac{X_{i}}{n} = \overline{X}$임을 알고 있다.
또, 이항분포의 표준편차는 $\sqrt{np(1-p)}$임을 알고있다.
다음의 통계량을 정의하자
$Y = \frac{Y_{n} - np}{\sqrt{np(1-p)}} = \frac{\sqrt{n}(\overline{X} - p)}{\sqrt{p}(1-p)}$
따라서, $Y \sim N(0,1)$은 참이다.
'수리통계' 카테고리의 다른 글
30. 라오-크래머 한계와 효율성 (0) | 2023.07.14 |
---|---|
29-1 다변량 중심극한정리 (0) | 2023.07.13 |
28. 분포수렴 (1) | 2023.07.11 |
27. 확률 수렴 (2) | 2023.07.10 |
26. 통계적 부트스트랩 (0) | 2023.07.07 |