문과생 네버랜드의 데이터 창고

15. 정규분포 본문

수리통계

15. 정규분포

K JI 2023. 6. 19. 18:40
  1. 정규분포란?
    1) 정규분포는 현대 통계학의 추론, 검정 혹은 예측에 필수적인 역할을 담당하고 있는 가장 중요한 분포이다.

    2) 온갖 자연계의 자연스러운 현상수치적으로 모델링이 가능하다는 장점이 있다.

    ${(1)}$ 키와 체중 : 사람들의 키, 체중은 평균을 중심으로 멀어질수록 사례수가 적어지는 정규분포를 따른다.
    ${(2)}$ 시험 성적 : 시험 점수는 보통 평균을 기준으로 극단적인 하한값(낮은 점수)와 극단적인 상한값(만점) 사이에서 정규분포를 그리는 경우가 많다.

    3) 통계학적인 측면에서, 정규분포는 중심극한정리(Central Limit Theorem)라는 매우 강력한 이론의 토대이다.

    ${(1)}$ 중심 극한 정리는 현실에서 볼 수 있는 실현된 표본들의 평균을 많이 수집하면 수집할수록 모집단의 평균 $\mu$과 모분산과 연관된 분산을 갖는 정규분포 $N(\mu, \frac{\sigma^{2}}{n})$ 로 수렴한다는 정리이다.

    -. 예를 들면, A / B 테스팅을 수행할 때 A안에 유입된 사용자 100명이 클릭한 횟수가 23회라고 한다면, 이 실험을 독립적인 잠재 고객군$[Customer_{1}, Customer_{2},...]$를 상대로 약 1000...n번 수행한다면 그 평균은 [20,23,26,17,....,34]와 같이 매번 다를 수 있지만 평균적으로 클릭 횟수 23회, 표본표준편차 $\frac{\sigma^{2}}{n}$인 정규분포를 띄게 된다.

    -. 이를 토대로 A안과 B안이 동일한 가설 공간(Hypothesis Space)에서 A안에 대하여 B안의 클릭 횟수의 평균이 얼마나 유의미하게 다른지 확률적으로 평가를 해낼 수 있다. 

    ${(2)}$ 이 정리가 강력한 이론인 이유는, 정규분포는 커녕 어떤 분포에서 추출된 표본인지 알 수 없는 대다수의 자연계의 현상을 '그냥 무한히 많이 추출했다'고 가정할 경우 그 평균을 정규분포에 준하여 문제를 풀 수 있기 때문이다.
    n = 30인 표본을 1000개씩 중복 허용 랜덤 추출하여 10번, 100번, ..., 100000번 평균을 계산했을때의 그 평균의 히스토그램. 

    처음엔 어떤 분포인지도 알 수 없던(10번 추출) 평균의 분포는
    평균을 추출하는 횟수가 많아질수록 점점 정규분포와 비슷한 모양(100000번 추출)으로수렴한다.

  2. 정규분포의 특성
    1) 정규분포의 pdf

    ${(1)}$ 정규분포는 아래의 pdf를 갖는 확률분포이다.
    $f(x) = \frac{1}{\sqrt{2\pi}\sigma} \cdot exp\{-\frac{1}{2}(\frac{x-\mu}{\sigma})^{2}\}$
    $-\infty < x < \infty$

    ${(2)}$ pdf의 적분인 CDF는 초등함수꼴을 갖지 않는 특수함수이다. 다음과 같이 표현한다.
    $P(Z \leq \frac{x - \mu}{\sigma}) = \phi(\frac{x-\mu}{\sigma})$

    ${(3)}$ pdf의 적분을 닫힌형식으로 표현하긴 어렵지만, 그 적분값이 1임은 증명할 수 있다.

    -. $\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}exp(-\frac{z^{2}}{z})dz$를 정의하자.
    -. 적분 계산을 위해, 이 적분을 제곱하면 아래와 같다.
    (동일 변수 z를 두번 적분한다는 개념은 사실 말이 되지 않는다. 다만, 설명의 용이성을 위해 둘로 나누었다.)
    $$I^{2} = (\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}exp(-\frac{z^{2}}{z})dz)\cdot \int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}exp(-\frac{z^{2}}{z})dz$$
    위 식을 하나의 적분식으로 통합하여 이중적분으로 바꾸면
    $$\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}exp(-\frac{z^{2}}{z})\frac{1}{\sqrt{2\pi}}exp(-\frac{z^{2}}{z})dzdz \\ = \frac{1}{2\pi}\int_{-\infty}^{\infty}\int_{-\infty}^{\infty} exp(-\frac{z^{2}}{z}-\frac{z^{2}}{z})dzdz$$
    변수 z 중 하나를 w로 치환하면 
    $$\frac{1}{2\pi}\int_{-\infty}^{\infty}\int_{-\infty}^{\infty} exp(-\frac{z^{2}}{z}-\frac{w^{2}}{z})dzdw$$

    -. 위 이중적분에 대하여 극좌표 치환을 수행하면
    $$Z=rsin(\theta), w = rcos(\theta) 일 때 \\
     |J| = \begin{vmatrix}
    \frac{\partial rsin(\theta)}{\partial r} & \frac{\partial rsin(\theta)}{\partial \theta}\\ 
     \frac{\partial rcos(\theta)}{\partial r} & \frac{\partial rcos(\theta)}{\partial \theta}
    \end{vmatrix} = \begin{vmatrix}
    sin(\theta) & rcos(\theta)\\ 
    cos(\theta) & -rsin(\theta)
    \end{vmatrix} = |-r(sin^{2}(\theta) + cos^{2}(\theta))| = r$$
    (단, $sin^{2}(\theta) + cos^{2}(\theta)$ 는 배각공식에 따라 1임을 이용하였다.)
    $$\frac{1}{2\pi}\int_{-\infty}^{\infty}\int_{-\infty}^{\infty} exp(-\frac{z^{2} + w^{2}}{2})dzdw = \frac{1}{2\pi}\int_{0}^{2\pi}\int_{-\infty}^{\infty} r \cdot exp(-\frac{r^{2}}{2})drd\theta$$
    -. $\frac{r^{2}}{2} = u$로 치환하면 $ |J| = \frac{dr}{du} = \frac{1}{\sqrt{2u}}$이고, 내부적분 
    $$\int_{-\infty}^{\infty} r \cdot exp(-\frac{r^{2}}{2})dr = [exp(-u)]_{0}^{\infty} = 1$$
    -. 외부적분은 
    $$ \frac{1}{2\pi}\int_{0}^{2\pi} 1d\theta = 1$$
    -. 따라서, $\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}exp(-\frac{z^{2}}{z})dz$를 따르는 분포(즉, 정규분포)는 확률분포의 조건을 만족함을 알 수 있다.

    2) 특별히, 정규분포 중 평균 0, 분산 1을 따르는 정규분포를 표준정규분포라 하고, 그 pdf는 아래와 같다.
    $f(x) = \frac{1}{\sqrt{2\pi}} \cdot exp\{-\frac{x^{2}}{2}\}$
    $-\infty < x < \infty$


  3. 정규분포의 MGF와 적률
    1) 표준정규분포의 MGF는 다음과 같이 구한다.
    $$E(e^{tx}) \\ = \int_{-\infty}^{\infty}e^{tx}\frac{1}{\sqrt{2\pi}}exp(-\frac{z^{2}}{z})dz \\ = \int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}exp(-\frac{(z-t)^{2}}{z} + \frac{t^{2}}{2})dz$$
    z에 의존하지 않는 상수항을 적분식 밖으로 끄집어내면

    $$exp(\frac{t^{2}}{2})\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}exp(-\frac{(z-t)^{2}}{z})dz$$
    $U = (z-t)$로 치환하면
    $|J| = \frac{dz}{du} = \frac{d(u-t)}{du} = 1$

    $$exp(\frac{t^{2}}{2})\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}exp(-\frac{(z-t)^{2}}{z})dz \\ = exp(\frac{t^{2}}{2})\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}exp(-\frac{u^{2}}{z})du \\ = exp(\frac{t^{2}}{2})$$
    2) MGF를 이용하여 표준정규분포의 1차적률, 2차적률을 구하면 다음과 같다.

    1차적률(평균) $$M'(0) = t\cdot exp(\frac{t^{2}}{2})|_{t=0} = 0$$
    2차 적률 $$M''(0) = exp(\frac{t^{2}}{2}) + t^{2}\cdot exp(\frac{t^{2}}{2})|_{t=0} = 1$$
    3) (일반화된) 정규분포의 MGF는 다음과 같이 구할 수 있다.

    ${(1)}$ X가 표준정규분포를 따를 때, $N(\mu, \sigma^{2}) = Z = \sigma X + \mu$ 로 관계를 정의할 수 있다.

    ${(2)}$ $E[exp(tZ)] = E[exp(t(\sigma X + \mu))]  = E[exp(t\mu)] \cdot E[exp(t\sigma X)]$

    ${(3)}$ 한편, $E[exp(t X)] = exp(\frac{t^{2}}{2})$ 임을 위에서 이미 구했으므로, 이를 이용하여 다시 정리하면
    $$ E[exp(t\mu)] \cdot E[exp(t\sigma X)] = exp(t\mu) \cdot exp(t) \cdot exp(\frac{t^{2}}{2}) = exp(t\mu + \frac{1}{2}\sigma^{2}t^{2})$$

    ${(4)}$ 1차적률과 2차적률을 구하면
    1차적률(평균)  $$M'(0)  = \frac{d exp(t\mu + \frac{1}{2}\sigma^{2}t^{2})}{dt}|_{t=0} \\ = exp(\frac{\sigma^{2}t^{2}}{2 + t\mu})(\mu + \sigma^{2}t)|_{t=0}  = \mu$$
    2차 적률 $$M''(0) = \frac{d^{2}exp(t\mu + \frac{1}{2}\sigma^{2}t^{2})}{dt^{2}}|_{t=0} \\ = exp(\frac{\sigma^{2}t^{2}}{2 + t\mu})(\mu^{2} + \sigma^{2} + \sigma^{4}t^{2} + 2\mu\sigma^{2}t)|_{t=0} \\ = \mu^{2} + \sigma^{2}$$
    -. 1차적률과 2차적률을 이용해서 분산을 구하면
    $$Var(Z) = m''(0) - m'(0)^{2} = \mu^{2} + \sigma^{2} - \mu^{2} = \sigma^{2}$$
    즉, 이 경우 $Z \ ~ N(\mu, \sigma^{2})$ 라고 표현할 수 있다. 

  4. 정규분포의 성질
    1) 정규분포의 가법성

    ${(1)}$ $x_{1}, ..., x_{n}$을 $i = [1, ..., n]$에 대해 모두 $N(\mu_{i}, \sigma_{i}^{2})$을 따르는 i.i.d인 확률변수라고 할 때

    -. $Y = \sum a_{i}x_{i}$, 즉 변환된 확률변수 Y가 $x_{1}, ..., x_{n}$의 선형결합으로 이루어진 확률변수라고 한다면

    -. Y의 분포는 N($\sum a_{i} \mu_{i}$, $a_{i}^{2}, \sigma_{i}^{2}$)인 정규분포를 따른다. 

    ${(2)}$ 다시 말해, 정규분포간의 결합 새로운 정규분포를 탄생시키고, 그 정규분포는 N($\sum a_{i} \mu_{i}$, $a_{i}^{2}, \sigma_{i}^{2}$)를 따른다.

    2) 정규분포와 가설의 검정
    ${(1)}$ Z가 $(0,1)$을 따르는 표준정규분포일 때

    -. $X = \sigma z + \mu$ 라는 변환확률변수 일 때, $z = \frac{x-\mu}{\sigma}$ 로 역함수 관계를 정의할 수 있다.

    -. 즉, (표준 정규분포가 아닌) 정규분포를 따르는 확률변수 X에 대하여 표준정규분포로 변환 수행이 가능하다.

    ${(2)}$ 위와 같은 관계를 이용하여 어떤 사건에서 실현값 x가 얼마나 희귀한 사건인지를 판단할 수 있다.

    -. 우리는 정규분포를 따르는 사건 X에서 실현값 x가 얼마나 일어나기 희귀한 사건인지 알고싶다.

    -. $P(X \leq x)$ 로 그 확률을 나타낼 수 있고
    $$ P(X \leq x) = P(\sigma z + \mu \leq x) = P(Z \leq \frac{x-\mu}{\sigma}) $$

    -. 즉, 정규분포를 따르는 확률변수 X의 평균과 분산을 알고 있다면

    -. 실현값 x가 어떤 확률을 갖는지 표준정규분포변환하여 그 확률을 구하는것이 가능하다.
    실현값 x에 대하여 표준정규분포로 변환하여 그 그 확률값을 구하는 예시

'수리통계' 카테고리의 다른 글

16. 혼합분포  (0) 2023.06.21
15-1 다변량 정규분포  (0) 2023.06.20
14-1. 감마분포의 친족분포들(카이제곱, 베타, 디리클레 분포)  (0) 2023.06.01
14. 감마분포  (0) 2023.05.30
13. 푸아송 분포  (2) 2023.05.26