Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- Media Mix Modeling
- Optimization
- 프로그래머를 위한 선형대수 #선형대수 #LU분해
- 미적분
- 수리통계
- bayesian
- 미적분 #사인과 코사인의 도함수
- 미적분 #접선의 방정식 #최적화 #뉴턴법 #뉴턴-랩슨법
- 미적분 #평균값 정리 #로피탈의 정리 #접선의 방정식
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #야코비 회전법 #QR법 #하우스홀더반사 #행렬회전
- 시계열분석 #Time-Series Analysis #이상탐지 #Anomaly Detection #Spectral Residual #CNN #SR-CNN
- Marketing Mix Modeling
- mmm
- 프로그래머를 위한 선형대수 #선형대수 #고유분해 #고윳값 #고유벡터
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #고유분해
- bayesian inference
- lightweightmmm
- 프로그래머를 위한 선형대수 #선형대수 #행렬계산
Archives
- Today
- Total
문과생 네버랜드의 데이터 창고
15. 정규분포 본문
-
정규분포란?
1) 정규분포는 현대 통계학의 추론, 검정 혹은 예측에 필수적인 역할을 담당하고 있는 가장 중요한 분포이다.
2) 온갖 자연계의 자연스러운 현상을 수치적으로 모델링이 가능하다는 장점이 있다.
${(1)}$ 키와 체중 : 사람들의 키, 체중은 평균을 중심으로 멀어질수록 사례수가 적어지는 정규분포를 따른다.
${(2)}$ 시험 성적 : 시험 점수는 보통 평균을 기준으로 극단적인 하한값(낮은 점수)와 극단적인 상한값(만점) 사이에서 정규분포를 그리는 경우가 많다.
3) 통계학적인 측면에서, 정규분포는 중심극한정리(Central Limit Theorem)라는 매우 강력한 이론의 토대이다.
${(1)}$ 중심 극한 정리는 현실에서 볼 수 있는 실현된 표본들의 평균을 많이 수집하면 수집할수록 모집단의 평균 $\mu$과 모분산과 연관된 분산을 갖는 정규분포 $N(\mu, \frac{\sigma^{2}}{n})$ 로 수렴한다는 정리이다.
-. 예를 들면, A / B 테스팅을 수행할 때 A안에 유입된 사용자 100명이 클릭한 횟수가 23회라고 한다면, 이 실험을 독립적인 잠재 고객군$[Customer_{1}, Customer_{2},...]$를 상대로 약 1000...n번 수행한다면 그 평균은 [20,23,26,17,....,34]와 같이 매번 다를 수 있지만 평균적으로 클릭 횟수 23회, 표본표준편차 $\frac{\sigma^{2}}{n}$인 정규분포를 띄게 된다.
-. 이를 토대로 A안과 B안이 동일한 가설 공간(Hypothesis Space)에서 A안에 대하여 B안의 클릭 횟수의 평균이 얼마나 유의미하게 다른지 확률적으로 평가를 해낼 수 있다.
${(2)}$ 이 정리가 강력한 이론인 이유는, 정규분포는 커녕 어떤 분포에서 추출된 표본인지 알 수 없는 대다수의 자연계의 현상을 '그냥 무한히 많이 추출했다'고 가정할 경우 그 평균을 정규분포에 준하여 문제를 풀 수 있기 때문이다.n = 30인 표본을 1000개씩 중복 허용 랜덤 추출하여 10번, 100번, ..., 100000번 평균을 계산했을때의 그 평균의 히스토그램.
처음엔 어떤 분포인지도 알 수 없던(10번 추출) 평균의 분포는
평균을 추출하는 횟수가 많아질수록 점점 정규분포와 비슷한 모양(100000번 추출)으로수렴한다. - 정규분포의 특성
1) 정규분포의 pdf
${(1)}$ 정규분포는 아래의 pdf를 갖는 확률분포이다.$f(x) = \frac{1}{\sqrt{2\pi}\sigma} \cdot exp\{-\frac{1}{2}(\frac{x-\mu}{\sigma})^{2}\}$ $-\infty < x < \infty$
${(2)}$ pdf의 적분인 CDF는 초등함수꼴을 갖지 않는 특수함수이다. 다음과 같이 표현한다.$P(Z \leq \frac{x - \mu}{\sigma}) = \phi(\frac{x-\mu}{\sigma})$
${(3)}$ pdf의 적분을 닫힌형식으로 표현하긴 어렵지만, 그 적분값이 1임은 증명할 수 있다.
-. $\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}exp(-\frac{z^{2}}{z})dz$를 정의하자.
-. 적분 계산을 위해, 이 적분을 제곱하면 아래와 같다.
(동일 변수 z를 두번 적분한다는 개념은 사실 말이 되지 않는다. 다만, 설명의 용이성을 위해 둘로 나누었다.)$$I^{2} = (\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}exp(-\frac{z^{2}}{z})dz)\cdot \int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}exp(-\frac{z^{2}}{z})dz$$ 위 식을 하나의 적분식으로 통합하여 이중적분으로 바꾸면
$$\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}exp(-\frac{z^{2}}{z})\frac{1}{\sqrt{2\pi}}exp(-\frac{z^{2}}{z})dzdz \\ = \frac{1}{2\pi}\int_{-\infty}^{\infty}\int_{-\infty}^{\infty} exp(-\frac{z^{2}}{z}-\frac{z^{2}}{z})dzdz$$변수 z 중 하나를 w로 치환하면
$$\frac{1}{2\pi}\int_{-\infty}^{\infty}\int_{-\infty}^{\infty} exp(-\frac{z^{2}}{z}-\frac{w^{2}}{z})dzdw$$
-. 위 이중적분에 대하여 극좌표 치환을 수행하면$$Z=rsin(\theta), w = rcos(\theta) 일 때 \\
|J| = \begin{vmatrix}
\frac{\partial rsin(\theta)}{\partial r} & \frac{\partial rsin(\theta)}{\partial \theta}\\
\frac{\partial rcos(\theta)}{\partial r} & \frac{\partial rcos(\theta)}{\partial \theta}
\end{vmatrix} = \begin{vmatrix}
sin(\theta) & rcos(\theta)\\
cos(\theta) & -rsin(\theta)
\end{vmatrix} = |-r(sin^{2}(\theta) + cos^{2}(\theta))| = r$$
(단, $sin^{2}(\theta) + cos^{2}(\theta)$ 는 배각공식에 따라 1임을 이용하였다.)$$\frac{1}{2\pi}\int_{-\infty}^{\infty}\int_{-\infty}^{\infty} exp(-\frac{z^{2} + w^{2}}{2})dzdw = \frac{1}{2\pi}\int_{0}^{2\pi}\int_{-\infty}^{\infty} r \cdot exp(-\frac{r^{2}}{2})drd\theta$$
$$\int_{-\infty}^{\infty} r \cdot exp(-\frac{r^{2}}{2})dr = [exp(-u)]_{0}^{\infty} = 1$$
-. 외부적분은
$$ \frac{1}{2\pi}\int_{0}^{2\pi} 1d\theta = 1$$
-. 따라서, $\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}exp(-\frac{z^{2}}{z})dz$를 따르는 분포(즉, 정규분포)는 확률분포의 조건을 만족함을 알 수 있다.
2) 특별히, 정규분포 중 평균 0, 분산 1을 따르는 정규분포를 표준정규분포라 하고, 그 pdf는 아래와 같다.$f(x) = \frac{1}{\sqrt{2\pi}} \cdot exp\{-\frac{x^{2}}{2}\}$ $-\infty < x < \infty$ - 정규분포의 MGF와 적률
1) 표준정규분포의 MGF는 다음과 같이 구한다.
$$E(e^{tx}) \\ = \int_{-\infty}^{\infty}e^{tx}\frac{1}{\sqrt{2\pi}}exp(-\frac{z^{2}}{z})dz \\ = \int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}exp(-\frac{(z-t)^{2}}{z} + \frac{t^{2}}{2})dz$$ z에 의존하지 않는 상수항을 적분식 밖으로 끄집어내면
$$exp(\frac{t^{2}}{2})\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}exp(-\frac{(z-t)^{2}}{z})dz$$$U = (z-t)$로 치환하면
$|J| = \frac{dz}{du} = \frac{d(u-t)}{du} = 1$
$$exp(\frac{t^{2}}{2})\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}exp(-\frac{(z-t)^{2}}{z})dz \\ = exp(\frac{t^{2}}{2})\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}exp(-\frac{u^{2}}{z})du \\ = exp(\frac{t^{2}}{2})$$
1차적률(평균) $$M'(0) = t\cdot exp(\frac{t^{2}}{2})|_{t=0} = 0$$ 2차 적률 $$M''(0) = exp(\frac{t^{2}}{2}) + t^{2}\cdot exp(\frac{t^{2}}{2})|_{t=0} = 1$$
${(1)}$ X가 표준정규분포를 따를 때, $N(\mu, \sigma^{2}) = Z = \sigma X + \mu$ 로 관계를 정의할 수 있다.
${(2)}$ $E[exp(tZ)] = E[exp(t(\sigma X + \mu))] = E[exp(t\mu)] \cdot E[exp(t\sigma X)]$
${(3)}$ 한편, $E[exp(t X)] = exp(\frac{t^{2}}{2})$ 임을 위에서 이미 구했으므로, 이를 이용하여 다시 정리하면
$$ E[exp(t\mu)] \cdot E[exp(t\sigma X)] = exp(t\mu) \cdot exp(t) \cdot exp(\frac{t^{2}}{2}) = exp(t\mu + \frac{1}{2}\sigma^{2}t^{2})$$
${(4)}$ 1차적률과 2차적률을 구하면
1차적률(평균) $$M'(0) = \frac{d exp(t\mu + \frac{1}{2}\sigma^{2}t^{2})}{dt}|_{t=0} \\ = exp(\frac{\sigma^{2}t^{2}}{2 + t\mu})(\mu + \sigma^{2}t)|_{t=0} = \mu$$ 2차 적률 $$M''(0) = \frac{d^{2}exp(t\mu + \frac{1}{2}\sigma^{2}t^{2})}{dt^{2}}|_{t=0} \\ = exp(\frac{\sigma^{2}t^{2}}{2 + t\mu})(\mu^{2} + \sigma^{2} + \sigma^{4}t^{2} + 2\mu\sigma^{2}t)|_{t=0} \\ = \mu^{2} + \sigma^{2}$$
$$Var(Z) = m''(0) - m'(0)^{2} = \mu^{2} + \sigma^{2} - \mu^{2} = \sigma^{2}$$
즉, 이 경우 $Z \ ~ N(\mu, \sigma^{2})$ 라고 표현할 수 있다. - 정규분포의 성질
1) 정규분포의 가법성
${(1)}$ $x_{1}, ..., x_{n}$을 $i = [1, ..., n]$에 대해 모두 $N(\mu_{i}, \sigma_{i}^{2})$을 따르는 i.i.d인 확률변수라고 할 때
-. $Y = \sum a_{i}x_{i}$, 즉 변환된 확률변수 Y가 $x_{1}, ..., x_{n}$의 선형결합으로 이루어진 확률변수라고 한다면
-. Y의 분포는 N($\sum a_{i} \mu_{i}$, $a_{i}^{2}, \sigma_{i}^{2}$)인 정규분포를 따른다.
${(2)}$ 다시 말해, 정규분포간의 결합은 새로운 정규분포를 탄생시키고, 그 정규분포는 N($\sum a_{i} \mu_{i}$, $a_{i}^{2}, \sigma_{i}^{2}$)를 따른다.
2) 정규분포와 가설의 검정
${(1)}$ Z가 $(0,1)$을 따르는 표준정규분포일 때
-. $X = \sigma z + \mu$ 라는 변환확률변수 일 때, $z = \frac{x-\mu}{\sigma}$ 로 역함수 관계를 정의할 수 있다.
-. 즉, (표준 정규분포가 아닌) 정규분포를 따르는 확률변수 X에 대하여 표준정규분포로 변환 수행이 가능하다.
${(2)}$ 위와 같은 관계를 이용하여 어떤 사건에서 실현값 x가 얼마나 희귀한 사건인지를 판단할 수 있다.
-. 우리는 정규분포를 따르는 사건 X에서 실현값 x가 얼마나 일어나기 희귀한 사건인지 알고싶다.
-. $P(X \leq x)$ 로 그 확률을 나타낼 수 있고
$$ P(X \leq x) = P(\sigma z + \mu \leq x) = P(Z \leq \frac{x-\mu}{\sigma}) $$
-. 즉, 정규분포를 따르는 확률변수 X의 평균과 분산을 알고 있다면
-. 실현값 x가 어떤 확률을 갖는지 표준정규분포로 변환하여 그 확률을 구하는것이 가능하다.실현값 x에 대하여 표준정규분포로 변환하여 그 그 확률값을 구하는 예시
'수리통계' 카테고리의 다른 글
16. 혼합분포 (0) | 2023.06.21 |
---|---|
15-1 다변량 정규분포 (0) | 2023.06.20 |
14-1. 감마분포의 친족분포들(카이제곱, 베타, 디리클레 분포) (0) | 2023.06.01 |
14. 감마분포 (0) | 2023.05.30 |
13. 푸아송 분포 (2) | 2023.05.26 |