Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 미적분 #접선의 방정식 #최적화 #뉴턴법 #뉴턴-랩슨법
- 미적분 #평균값 정리 #로피탈의 정리 #접선의 방정식
- 시계열분석 #Time-Series Analysis #이상탐지 #Anomaly Detection #Spectral Residual #CNN #SR-CNN
- Marketing Mix Modeling
- 프로그래머를 위한 선형대수 #선형대수 #행렬계산
- 프로그래머를 위한 선형대수 #선형대수 #LU분해
- 수리통계
- Media Mix Modeling
- 미적분 #사인과 코사인의 도함수
- bayesian inference
- 프로그래머를 위한 선형대수 #선형대수 #고유분해 #고윳값 #고유벡터
- 미적분
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #야코비 회전법 #QR법 #하우스홀더반사 #행렬회전
- lightweightmmm
- bayesian
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #고유분해
- mmm
- Optimization
Archives
- Today
- Total
문과생 네버랜드의 데이터 창고
13. 푸아송 분포 본문
- 푸아송 분포란 무엇인가?
1) 자연계에서 어떤 정의된 구간 h에서 사건이 x회 발생할 확률을 모델링한 분포이다.
${(1)}$ 정의만 보면 다소 추상적인데, 구체적인 예시로 표현하면 아래의 것들로 구체화할 수 있다.
-. 단위 시간(h) 내에 발생하는 자동차 사고 횟수 x회 발생할 확률
-. 단위 시간(h) 내에 청구되는 보험금 횟수가 x회일 확률
2) 단위시간이 무슨 의미인가를 구체화하기 위해선 푸아송 과정이라는 개념에 대해서 면밀히 살펴봐야 한다. - 푸아송 과정
푸아송 과정을 정의하는 방법은 ①이항분포를 이용하는 방법과, ②분포와 무관하게 해석학적 방법을 활용하는 두 방법으로 나눌 수 있다.
가장 범용적인 정의 방법인 이항분포를 사용한 방법부터 먼저 살펴보면 다음과 같다.
1) 이항분포를 활용한 푸아송 과정
${(1)}$ 다음의 조건을 만족한다고 가정한다
-. 단위 구간(h) 내에서 더 작은 단위구간으로 쪼갤 수 있고, 이 단위구간 내에서 사건이 발생할 확률은 항상 일정하다
-. 어떤 단위구간 내에서 발생한 사건은 다른 단위구간 내에서 발생하는 사건과 독립이다. 즉, 매우 잘게 쪼갠 1구간에서 사고가 일어난다고 해서 반드시 그 다음 구간인 2구간에서 사고가 발생하거나 해선 안된다.
${(2)}$ 단위 구간(h)에서 발생한 사건의 수를 $\lambda$ 라고 하자.
-. $\lambda$를 확률변수 X의 기댓값으로 볼 수 있다면, 이항분포(https://goteodata.kr/37)를 이용하여 $\lambda$ = $n \cdot p$로 모델링할 수 있다.(단, n은 단위 구간(h)의 갯수와 비례하는 관찰 횟수, p는 그 단위 구간(h) 내에서 사건이 발생할 확률)
-. 예를 들어 한시간동안 보험금 청구 횟수를 $\lambda$라고 하고, 1분에 한번 관찰한다고 가정하면 n = 60, p = $\frac{\lambda}{60}$로 볼 수 있다.
${(3)}$ 위와 같은 경우, '1분에 적어도 k번 보험금을 청구하러 왔으면 성공, 그렇지 않으면 실패'라는 이항 분포틱한 개념으로 나타낼 수 있으며
-. $\begin{pmatrix}
n\\k
\end{pmatrix}(\frac{\lambda}{60})^{k}(1-\frac{\lambda}{60})^{n-k}$ 라는 이항분포의 pmf로 나타낼 수 있다.
-. 문제는, 이런 전개의 경우 정확히 k개가 아닌, 'k개 이상이 발생'의 경우에도 성공으로 간주될 수 있다는 점이다.
-. 우리가 원하는건 구간 h에서 정확히 k개가 발생할 확률을 구하는 것이다.
${(4)}$ 만약, n을 무한대에 가깝게 보내서 단위 구간의 길이를 0에 가깝게 쪼갤 수 있다면, 기본적으로 그 구간 내에서 발생한 사건의 수는 1을 초과하긴 어려울것이다(이를 포아송 공준이라고 한다)
-. 위와 같은 공준에 따라 n을 극한으로 보냈을 때의 pmf를 추정한다.
${(5)}$ 이항분포의 pmf $\begin{pmatrix}
n\\k
\end{pmatrix}(p)^{k}(1-p)^{n-k}$를 이용하여 $n \rightarrow \infty$을 구하면
$\lim_{n\rightarrow \infty}{\frac{n!}{(n-k)!k!}\cdot \frac{\lambda^{k}}{k!}}(1-\frac{\lambda}{n})^{n}(1-\frac{\lambda}{n})^{-k} = {\frac{n(n-1)...(n-k+1)}{n^{k}}\cdot \frac{\lambda^{k}}{k!}}(1-\frac{\lambda}{n})^{n}(1-\frac{\lambda}{n})^{-k}$ 극한의 분배법칙에 따라 $\lambda$에 의존하는 항과 의존하지 않는 상수항을 분리하면 $\lim_{n \rightarrow \infty}{\frac{n(n-1)...(n-k+1)}{n^{k}}} \cdot \lim_{n \rightarrow \infty}{\frac{\lambda^{k}}{k!}(1-\frac{\lambda}{n})^{n}(1-\frac{\lambda}{n})^{-k}}$ $\frac{n(n-1)...(n-k+1)}{n^{k}} = \frac{n^{k} + ...}{n^{k}}$ 이므로, 분자와 분모가 동차이므로 이 극한은 1로 수렴한다. $\lim_{n \rightarrow \infty}{\frac{\lambda^{k}}{k!}(1-\frac{\lambda}{n})^{n}(1-\frac{\lambda}{n})^{-k}}$ 에서 $\frac{\lambda^{k}}{k!}$는 n에 의존하지 않는 상수항이고, $\lim_{n \rightarrow \infty}{1-\frac{\lambda}{n})^{n}(1-\frac{\lambda}{n})^{-k}}$는 $$ \lim_{n \rightarrow \infty}{(1+\frac{a}{n})^{n}}=e^{a}$$ 라는 점을 이용하면
$$ lim_{n \rightarrow \infty}{(1-\frac{\lambda}{n})^{n}(1-\frac{\lambda}{n})^{-k}} = e^{-\lambda} $$위에서 도출된 모든 항을 결합하면
$$1 \cdot \frac{\lambda^{k}}{k!} \cdot e^{-\lambda}$$ 이고, 이것이 바로 푸아송 분포의 pmf이다.
2) 이항분포에 의존하지 않는 도출 방법(해석학적 방법)
${(1)}$ 다음의 조건을 만족한다고 가정한다.
-. 함수 $G(x,w)$를 단위 구간 w에서 x개의 사건이 발생할 확률을 나타내는 함수라고 정의하고함수 G(x,w)의 예시
① $G(1,h) = \lambda h + o(h) $(단,$\lambda$ > 0 인 양의 상수) ② $sum_{x=2}^{\infty}G(x,h) = o(h)$ ③ 서로 겹치지 않는 분할된 구간에서 발생한 사건은 서로 확률적으로 독립이다.
(즉, 1구간에서 사건이 발생했다고 해서 2구간에서 사건이 반드시 발생하거나 하면 안된다.)조건 설명 ①과 ③ 단위 구간 $h_{1}$ 과 $h_{2}$의 함수 $G(1, h_{1})$과 $G(1, h_{2})$ 는 확률적으로 독립이다. ① 사건이 발생할 확률은 그 구간의 길이에 비례한다. ② $sum_{x=2}^{\infty}G(x,h) = G(2,h) + G(3,h) + ... = o(h)$, 즉 0에 수렴한다. 다시 말해 한 단위구간에서
두 개 이상의 사건이 일어날 확률은 본질적으로 0으로 수렴한다.①과 ② -. 길이 h인 구간에서 어떤 사건이 일어날 확률은 $\lambda h + o(h)$이고,
-. 아무런 사건도 일어나지 않을 확률은 $1-\lambda h + o(h)$ 이다.
-. G(0,h)와 G(0,w)는 확률상 독립(③)이므로, G(0, w + h)는 다음과 같다.
$$ G(o, w + h) = G(0,w) \cdot G(0,h) = G(0,w) \cdot [1 - \lambda h + o(h)] $$
-. 이 때, w의 순간 변화율을 매우 미소한 구간인 h를 이용하여 구하면
$$ \frac{dG(0, w+ h) - G(0, w)}{dh} = \frac{d(G(0,w)[1-\lambda h + o(h)] - G(0,w))}{dh} = -\lambda G(0,w) + \frac{do(h)G(0,w)}{dh}$$
-. 극한을 취해주면
$$\lim_{h \rightarrow 0}{-\lambda G(0,w) + \frac{o(h)G(0,w)}{h}} = -\lambda G(0,w)$$
-. $\frac{dG(0,w)}{dw} = -\lambda G(0,w)$ 라는 미분방정식을 변수분리법을 이용해 풀면
$$ log(G(0,w)) = -\lambda w \rightarrow G(0,w) = ce^{-\lambda w}$$
-. 이 때, G(0,0) = 1 이므로, c = 1이 된다.
-. 푸아송 공준을 이용하여, 귀납법을 1차시 진행하면$G(x, w+h) = G(x,w) \cdot [1 - \lambda h + o(h)] + G(x-1, w) \cdot [\lambda h + o(h)] + o(h)$ $\frac{G(x,w+h) - G(x,w)}{h} = -\lambda G(x,w) + \lambda G(x-1, w) + \frac{o(h)}{h}$ $\frac{dG(x,w)}{dw} = \lim_{h \rightarrow 0}{\frac{G(x,w+h)-G(x,w)}{h}}
= \lim_{h \rightarrow 0}{\lambda G(x,w) + \lambda G(x-1, w) + \frac{o(h)}{h}}
= \lambda G(x,w) + \lambda G(x-1, w)$
푸아송 공준의 조건에 따라 $\frac{o(h)}{h} \rightarrow 0$ 이다.도출한 미분방정식의 해를 위의 귀납법 결과와 연결지으면 다음과 같은 PMF가 도출된다.
$$ \frac{(\lambda w)^{x}e^{-\lambda w}}{x!} $$ - 푸아송 분포의 MGF
1) MGF를 구하면
-. $E(e^{tx}) = \sum_{x}^{\infty} \frac{e^{tx}(\lambda w)^{x}e^{-\lambda w}}{x!} = e^{-\lambda w} \sum_{x}^{\infty}\frac{e^{tx}(-\lambda w)^{x}}{x!}$
-. $e^{-\lambda w} \sum_{x}^{\infty}\frac{e^{tx}(\lambda w)^{x}}{x!} = e^{-\lambda w} \sum_{x}^{\infty}\frac{(e^{t}\lambda w)^{x}}{x!} = e^{-\lambda w}e^{-\lambda we^{t}} = e^{-\lambda w(e^{t}-1)}$
2) MGF를 이용해 기댓값을 구하면
-. $M'(0) = e^{\lambda w(e^{0}-1)} \cdot \lambda we^{0} = \lambda w e^{0} = \lambda w$
-. $M''(0) =e^{\lambda w(e^{0}-1)} \cdot (\lambda we^{0})^{2} + e^{\lambda w(e^{0}-1)} \cdot(\lambda we^{0}) = \lambda w^{2} + \lambda w$
-. 따라서 $Var(X) = m''(0) - [m'(0)]^{2} = \lambda w^{2} + \lambda w - \lambda w^{2} = \lambda w$
3) 다시 말해, 평균과 분산이 동일하다는 특성을 가지고 있다.
'수리통계' 카테고리의 다른 글
14-1. 감마분포의 친족분포들(카이제곱, 베타, 디리클레 분포) (0) | 2023.06.01 |
---|---|
14. 감마분포 (0) | 2023.05.30 |
12. 이항분포 (0) | 2023.05.22 |
6-1. 다변량 확률변수의 변환 (0) | 2023.05.16 |
11. 분산 - 공분산 행렬 (0) | 2023.05.16 |