문과생 네버랜드의 데이터 창고

29. 중심극한정리 본문

수리통계

29. 중심극한정리

K JI 2023. 7. 12. 19:37
  1. 중심극한정리의 중요성
    1) 중심극한정리의 정의

    ${(1)}$ 중심극한정리는
    -. (모수를 모르는 어떤 임의의 분포에서) 샘플들을 많이 추출하여
    -. 모수를 추정하도록 하는 샘플들의 통계량(즉, 추정량)을 구할 경우
    -. 그 통계량은 많은 경우 정규분포로 수렴한다.
    -. 이 때, 통계량에는 우리가 익히 알고있는 평균 등이 포함된다. 특히 평균은 $N(\mu, \frac{\sigma^{2}}{n})$, 혹은 표준화를 수행할 경우 $N(0,1)$로 수렴한다.

    ${(2)}$ 엄밀한 정의는 다음과 같이 내릴 수 있다.
    $[X_{1}, \dots X_{n}]$을 평균 $\mu$와 분산 $\sigma^{2}$인 분포에서 추출한 확률표본의 집합이라고 하자.
    다음의 통계량을 정의하자

    $$Y = \frac{\sqrt{n}(\overline{X} - \mu)}{\sigma} = \frac{\sum(X_{i} - n\mu)}{\sigma\sqrt{n}}$$

    이 때, $Y \sim N(0,1)$은 참이다.
    ${(3)}$ 예시로 보는 중심극한정리
    -. 예를 들면, A / B 테스팅을 수행할 때 A안에 유입된 사용자 100명이 클릭한 횟수가 23회라고 한다면, 이 실험을 독립적인 잠재 고객군$[Customer_{1}, Customer_{2},...]$를 상대로 약 1000...n번 수행한다면 그 평균은 [20,23,26,17,....,34]와 같이 매번 다를 수 있지만 평균적으로 클릭 횟수 23회, 표본표준편차 $\frac{\sigma^{2}}{n}$인 정규분포를 띄게 된다.

    -. 이를 토대로 A안과 B안이 동일한 가설 공간(Hypothesis Space)에서 A안에 대하여 B안의 클릭 횟수의 평균이 얼마나 유의미하게 다른지 확률적으로 평가를 해낼 수 있다. 

    2) 중심극한정리가 현대 통계학에서 중요한 이유
    ${(1)}$ 모집단의 분포가 어떤 분포를 따르는지 알 필요가 없다

    -. 대부분의 (모수적) 통계적 추론은 모수를 가정하고, 그 모수를 추정하는 통계량을 기반으로 추론을 수행한다.

    -. 문제는,  보통 통계적 추론은 현실에서 실현된 소수의 샘플을 기반으로 수행하기 때문에 이 샘플이 어떤 모수를 가지는 분포에서 추출된건지 알 수 없다는 점에 있다.

    -. 중심극한정리는 모집단의 분포가 어떤 모양을 가지는지 신경쓰지 않아도 되게 만들어준다.

    -. 왜냐하면 어떤 분포를 가지던지 간에 그곳에서 추출한 샘플들의 통계량은(그 샘플들의 수만 충분하다면) 무한히 추출했다고 가정했을 때 정규분포로 수렴한다는 것을 보장하기 때문이다. 
    n = 30인 표본을 1000개씩 중복 허용 랜덤 추출하여 10번, 100번, ..., 100000번 평균을 계산했을때의 그 평균의 히스토그램. 

    처음엔 어떤 분포인지도 알 수 없던(10번 추출) 평균의 분포는
    평균을 추출하는 횟수가 많아질수록 점점 정규분포와 비슷한 모양(100000번 추출)으로수렴한다.
  2. 중심극한정리
    1) 중심극한정리를 이해하기 위한 필수지식
    ${(1)}$ 테일러 전개
    -. MGF에 대하여 테일러 전개를 통해 간편함을 꾀한다.

    ${(2)}$ 분포수렴
    -. 특히, 적률생성함수 방법론에 대한 이해가 필요하다

    ${(3)}$ 정규분포
    -. 표준정규분포의 mgf꼴을 확인할 필요가 있다.

    2) 중심극한정리의 증명

    어떤 분포를 따르는지 알려지지 않은 확률변수 X에서 확률표본 $[X_{1}, \dots, X_{n}]$을 추출했다고 하자.
    또, 각각의 확률변수들엔 모두 적률생성함수(MGF)가 존재한다.

    확률표본을 이용한 통계량 
    $$Y = \frac{\sqrt{n}(\overline{X} - \mu)}{\sigma} = \frac{\sum(X_{i} - n\mu)}{\sigma\sqrt{n}}$$ 를 정의하자.

    확률표본 $X_{i}$의 선형결합으로서 정의한 Y의 적률생성함수는 아래와 같이 정의할 수 있다.
    $$M(t;n) = E[exp(t\frac{\sum(X_{i} - n\mu)}{\sigma\sqrt{n}})]$$
    기댓값의 성질과, 지수함수의 성질을 이용하면 다음과 같이 나타낼 수 있다.
    $$E[exp(t\frac{\sum(X_{i} - n\mu)}{\sigma\sqrt{n}})] \\
    = E[exp(t\frac{(X_{1} - \mu)}{\sigma\sqrt{n}}) \cdot exp(t\frac{(X_{2} - \mu)}{\sigma\sqrt{n}}) \cdot \dots \cdot exp(t\frac{(X_{n} - \mu)}{\sigma\sqrt{n}})] \\
    = E[exp(t\frac{(X_{1} - \mu)}{\sigma\sqrt{n}})] \cdot E[exp(t\frac{(X_{2} - \mu)}{\sigma\sqrt{n}})] \cdot \dots \cdot E[exp(t\frac{(X_{n} - \mu)}{\sigma\sqrt{n}})]$$
    한편, 확률표본 $X_{1}, \dots X_{n}$의 기댓값을 구한다는것은, 그 원천인 확률변수 X의 기댓값을 구하는것과 동치이다.
    따라서 위 식은 아래와 같이 변형할 수 있다.
    $$E[exp(t\frac{(X- \mu)}{\sigma\sqrt{n}})] \cdot E[exp(t\frac{(X - \mu)}{\sigma\sqrt{n}})] \cdot \dots \cdot E[exp(t\frac{(X - \mu)}{\sigma\sqrt{n}})] \\
    = \begin{Bmatrix}
    E[exp(t\frac{(X - \mu)}{\sigma\sqrt{n}})]
    \end{Bmatrix}^{n} \dots ① $$

    이제, 확률표본이 아닌 확률변수 X에 대한 MGF를 구한다.
    다음의 변환된 확률변수를 정의하자
    $$Z = (X - \mu)$$
    이 때, Z의 MGF는 X를 이용하여 다음과 같이 정의할 수 있다.
    $$m(t) = E[exp(t(x-\mu))]$$
    $m(t)$에 대하여 2차까지 테일러 전개를 수행하면
    $$m(t) = 1 + m'(0)t + \frac{m''(\xi)}{2}t^{2}$$
    이 떄, $\xi$는 어떤 임의의 상수이다.
    MGF의 0 근처에서 정의된 1계미분은 1차적률과 같고, 그 2계미분은 2차적률과 같다.

    -. 1차적률은 즉 기댓값이므로 $(X - \mu)$에 대한 기댓값을 구하면
    $$E(X - \mu) = 0$$

    -. 2차 적률 $(X-\mu)$에 대하여 구하면
    $$E[(X - \mu)^{2}]은 0이 아닌 어떤 값이다.$$
      
    위 사실을 이용하여 테일러 전개식을 채우면
    $$m(t) = 1 + \frac{m''(\xi)}{2}t^{2}$$
        $\frac{\sigma^{2}t^{2}}{2}$를 넣고 빼면
    $$m(t) = 1 + \frac{\sigma^{2}t^{2}}{2} + \frac{[m''(\xi) - \sigma^{2}]t^{2}}{2}$$ 
    한편, 위에서 도출한 식 ① 을 위에서 구한 $m(t)$ 형식으로 표현하면
    $$\begin{Bmatrix}
    E[exp(t\frac{(X - \mu)}{\sigma\sqrt{n}})]
    \end{Bmatrix}^{n} = [m(\frac{t}{\sigma\sqrt{n}})]^{n} \dots ②$$

    $m(\frac{t}{\sigma\sqrt{n}})$는 m(t)에서 t를 $\frac{t}{\sigma\sqrt{n}}$으로 대치한 값이다.
    이를 반영하여 테일러식을 다시 적으면
    $$m(\frac{t}{\sigma\sqrt{n}}) = 1 + \frac{\sigma^{2}(\frac{t}{\sigma\sqrt{n}})^{2}}{2} + \frac{[m''(\xi) - \sigma^{2}](\frac{t}{\sigma\sqrt{n}})^{2}}{2} \\
    =1 + \frac{t^{2}}{2n} + \frac{[m''(\xi) - \sigma^{2}]t^{2}}{2n\sigma^{2}} $$
    이를 식 ②에다 집어넣으면 
    $$\begin{Bmatrix}
    1 + \frac{t^{2}}{2n} + \frac{[m''(\xi) - \sigma^{2}]t^{2}}{2n\sigma^{2}}]
    \end{Bmatrix}^{n} \dots ③$$
    한편, 우리는 MGF 방법의 예제에서 지수함수의 극한과 관련한 다음의 정리를 사용하였다.
    $$lim_{n \rightarrow \infty}[1 + \frac{b}{n} + \frac{\psi(n)}{n}]^{cn} = lim_{n \rightarrow \infty}[1 + \frac{b}{n}] = e^{bc}$$

    위 정리에 대하여 식 ③을 대입하여 살펴보면
    -. b는 $\frac{t^{2}}{2}$이다.
    -. c는 1과 같다.

    따라서, $$lim_{n \rightarrow \infty} \begin{Bmatrix}
    1 + \frac{t^{2}}{2n} + \frac{[m''(\xi) - \sigma^{2}]t^{2}}{2n\sigma^{2}}]
    \end{Bmatrix}^{n} = e^{\frac{t^{2}}{2}}$$ 

    한편, 이는 표준정규분포의 mgf와 동일한것을 알 수 있다.

    따라서, 우리는 아래와 같이 결론내릴 수 있다.
    $$ Y \overset{D}{\rightarrow} N(0,1)$$
  3. 중심극한정리를 배경에 깔고있는 통계적 추론
    1) 모평균검정

    ${(1)}$ 양측 가설검정에서 다음의 결정식을 활용하였다.
    $$ \frac{\overline{X} - \mu}{s/\sqrt{n}} \overset{D}{\rightarrow} N(0,1)$$

    ${(2)}$ 이제, 이 결정식에 숨어있는 근거를 다음과 같이 나타낼 수 있다.
    $$\frac{\overline{X} - \mu}{s/\sqrt{n}} = (\frac{\sigma}{S}) \cdot \frac{(\overline{X} - \mu)}{\sigma / \sqrt{n}}$$
    로 나타낼 수 있다.

    이 때, 우리는 다음과 같이 표본분산의 일치성을 증명하였다.

    $S^{2} \overset{p}{\rightarrow} \sigma^{2}$

    따라서, 슬러츠키 정리에 따라 
    $\frac{\sigma}{S} \overset{p}{\rightarrow} 1$

    한편, $\frac{(\overline{X} - \mu)}{\sigma / \sqrt{n}}$는 CLT에 따라 $N(0,1)$로 분포수렴한다. 
    따라서 명제가 성립한다.

    2) 모비율검정

    ${(1)}$ 신뢰구간에서 잠시 살펴봤지만, 기본적으로 $p = \sum\frac{X_{i}}{n}$이라는 사실을 이용하여 평균으로 간주할 수 있음을 보였다.

    ${(2)}$ 이제, 이항분포에서 중심극한정리를 이용해 모비율 검정이라고 불리는 검정 방법론을 도출할 것이다.
    $[X_{1}, \dots, X_{n}]$을 $b(1,p)$에서 추출한 확률표본이라고 하자.

    이 떄, 다음의 통계량을 정의한다.
    $$Z = \sum_{i=1}^{n} X_{i}$$
    이 때, 이항분포의 정의에 따라  $Z \sim b(n,p)$이다.

    한편, 우리는 이항분포의 모수 $p$에 대한 불편추정량은 $\sum\frac{X_{i}}{n} = \overline{X}$임을 알고 있다.
    또, 이항분포의 표준편차는 $\sqrt{np(1-p)}$임을 알고있다. 

    다음의 통계량을 정의하자
    $Y = \frac{Y_{n} - np}{\sqrt{np(1-p)}} = \frac{\sqrt{n}(\overline{X} - p)}{\sqrt{p}(1-p)}$

    따라서, $Y \sim N(0,1)$은 참이다.

'수리통계' 카테고리의 다른 글

30. 라오-크래머 한계와 효율성  (0) 2023.07.14
29-1 다변량 중심극한정리  (0) 2023.07.13
28. 분포수렴  (1) 2023.07.11
27. 확률 수렴  (2) 2023.07.10
26. 통계적 부트스트랩  (0) 2023.07.07