Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- mmm
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #야코비 회전법 #QR법 #하우스홀더반사 #행렬회전
- 프로그래머를 위한 선형대수 #선형대수 #행렬계산
- 미적분
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #고유분해
- Optimization
- 프로그래머를 위한 선형대수 #선형대수 #고유분해 #고윳값 #고유벡터
- bayesian
- 미적분 #사인과 코사인의 도함수
- 프로그래머를 위한 선형대수 #선형대수 #LU분해
- 미적분 #접선의 방정식 #최적화 #뉴턴법 #뉴턴-랩슨법
- 미적분 #평균값 정리 #로피탈의 정리 #접선의 방정식
- 수리통계
- lightweightmmm
- bayesian inference
- 시계열분석 #Time-Series Analysis #이상탐지 #Anomaly Detection #Spectral Residual #CNN #SR-CNN
- Marketing Mix Modeling
- Media Mix Modeling
Archives
- Today
- Total
문과생 네버랜드의 데이터 창고
28. 분포수렴 본문
-
분포수렴이란
1) 확률변수가 갖는 자산 중 하나인 '분포'의 수렴에만 집중한 수렴 정의법
${(1)}$ 엄밀하게 정의하면 다음과 같이 나타낼 수 있다.$[X_{n}]$ 이 확률변수의 집합이고 X가 어떤 확률변수라고 하자.
$F_{X_{n}}$과 $F_{X}$를 각각의 확률변수들의 CDF 라고 하자.
$C(F_{x})$를 함수 $F_{X}$가 연속인 모든 정의역의 점의 집합이라고 할 때
$$lim_{n \rightarrow \infty} F_{X_{n}} = F_{x}$$(단, X는 $x \in C(F_{X})$에 대하여 유효하다)
가 참이면 $X_{n}$을 $X$에 대하여 분포수렴한다고 하고, 상징적으로
$$X_{n} \overset{D}{\rightarrow} X$$ 로 표현한다.
2) 마찬가지로 확률변수의 수렴을 다루는 확률수렴과 차이점은 다음과 같다.
${(1)}$ 확률 수렴은 분포를 고려하지 않고 확률변수 자체가 다른 확률변수에 직접적으로 수렴하는 것에 집중한다
-. 다시말해, 무한히 많은 n이 주어진다면 $X_{n}$은 (확률적으로) $X$와 같다.
${(2)}$ 그에 비해, 분포수렴은 확률변수가 가지는 분포의 '모양'이 다른 확률변수의 분포의 '모양'에 점근적으로 비슷해진다는 것에 집중한다.
-. 즉, 확률 수렴보다는 수렴에 대하여 다소나마 완화된 정의를 갖는다.
${(3)}$ 분포수렴의 경우 다음의 이점을 가진다.-. 분포간의 수렴 관계를 정의할 수 있다 :
①확률수렴은 분포(함수)를 고려하지 않는다.
예를 들어, $X_{n}$를 이항분포를 따르는 확률변수라 하고, $X$를 정규분포를 따르는 확률변수라고 하자.
이 때, 확률 수렴에 따르면 $X_{n}$은 $X$로 수렴할 수 없다. 아예 분포의 성질이 다르기 때문이다.
② 분포수렴은 확률수렴과는 달리 분포의 모양에 집중하기 때문에
비록 성질이 다르더라도 모양이 동일하다면 수렴하다고 주장을 할 수 있게 된다.
③분포의 '모양' 측면에서 이항분포가 극한으로 가면 정규분포로 수렴한다는 점을 분포수렴을 통해 증명할 수 있다.
(중심극한정리) - 분포수렴의 성질
1) $X_{n}$ 이 $X$로 확률수렴하면, $X_{n}$은 $X$로 분포수렴한다.${(1)}$확률변수 X가 CDF $F_{X}(X)$를 갖는다고 하자.
마찬가지로 확률변수 집합 $[X_{n}]$이 cdf $F_{X_{n}}$을 갖는다고 하자.
-. 어떤 임의의 상수 $\epsilon > 0$을 정의하면
-. $$F_{X_{n}} = P[X_{n} \leq X] \\ = P[(X_{n} \leq X) \cap (|X_{n} - X| < \epsilon)] + P[(X_{n} \leq X) \cap (|X_{n} - X| \geq \epsilon)] \\ \leq P[X \leq x + \epsilon] + P[|X_{n} - X| \geq \epsilon]$$
-. 이런 분리가 가능한 이유는, 확률수렴하면 두번째 항
$P[(X_{n} \leq X) \cap (|X_{n} - X| \geq \epsilon)] = 0$이고
$P[(X_{n} \leq X) \cap (|X_{n} - X| < \epsilon)] = P[(X_{n} \leq X)]$ 이기 때문이다.
${(2})$ 부등식과 $X_{n} \overset{p}{\rightarrow} X$ 라는 확률수렴의 성질을 이용하면 상계(upper bound)
$\overline{lim}_{n \rightarrow \infty}F_{X_{n}}(x) \leq F_{x}[X + \epsilon]$
이고, 그 하계(lower bound)를 구하면
$$P[X_{n} > x] \leq P[X \geq x - \epsilon] + P[|X_{n} - X| \geq \epsilon]$$ 에서
$$\underline{lim}_{n \rightarrow \infty}F_{X_{n}}(x) \geq F_{x}(x - \epsilon)$$ 이다.
상계와 하계를 이용하여 다음의 부등식을 정의할 수 있다.
$$F_{X}(x - \epsilon) \leq \underline{lim}_{n \rightarrow \infty}F_{X_{n}}(x) \leq \overline{lim}_{n \rightarrow \infty}F_{X_{n}}(x) \leq F_{x}[x + \epsilon]$$
$\epsilon \rightarrow 0$ 이면 샌드위치 정리에 따라 다음을 증명할 수 있다.
$$lim_{n \rightarrow \infty}F_{X_{n}}(X) = F_{x}(X)$$
2) 확률변수가 어떠한 상수로 분포수렴하면, 그 확률변수는 그 상수로 확률수렴한다.
어떤 임의의 상수 $\epsilon > 0$이 주어졌다고 하자.
$$lim_{n \rightarrow \infty} P[|X_{n} - b| \leq \epsilon] = lim_{n \rightarrow \infty} F_{X_{n}}(b + \epsilon) - lim_{n \rightarrow \infty} F_{X_{n}}(b - \epsilon) = 1 - 0 = 1$$
은 참이다.
3) $X_{n} \overset{D}{\rightarrow} X$ 이고, $Y_{n} \overset{p}{\rightarrow} 0$라고 하자. $$X_{n} + Y_{n} \overset{p}{\rightarrow} X$$는 참이다.
4) $X_{n} \overset{D}{\rightarrow} X$ 라면, X의 범위에서 연속인 g는 $$g(X_{n}) \overset{D}{\rightarrow}g(x)$$는 참이다.
5) 슬러츠키 정리$X_{n}$, $X$, $A_{n}$, $B_{n}$이 확률변수이며, a와 b를 어떤 상수라고 하자. 그러면
$$X_{n} \overset{D}{\rightarrow} X, A_{n} \overset{p}{\rightarrow} a, B_{n} \overset{p}{\rightarrow} b$$에 대하여
$$A_{n} + B_{n}X_{n} \overset{D}{\rightarrow} a + bX$$는 성립한다. - 수렴 분포를 구하는 방법
1) 확률 유계
${(1)}$ 예를들어 정규분포의 경우, 정의역은 $(-\infty, \infty) $사이에서 정의된다. 즉, 분포에 한계가 존재하지 않는다.
-. 그러나, 어떤 분포가 다른 분포와 모양이 비슷한지를 확인하기 위해서는, 이 범위를 제한할 필요성이 있다.
-. 이 때 유용하게 활용할 수 있는 성질이 바로 확률유계(Boundeness in probability)이다.
${(2)}$ 확률유계는 아래와 같이 엄밀하게 정의할 수 있다.
$CDF \ F_{X}$를 갖는 확률변수 X가 존재한다고 하자. 또, 임의의 어떤 상수 $\epsilon >0$이 주어졌다고 하자. 그러면
-. $X \leq \eta_{1}$ 이라는 관계가 정의될 때, $F_{x}(x) \leq \frac{\epsilon}{2}$
-. $X > \eta_{2}$ 이라는 관계가 정의될 때 $F_{x}(X) > 1 - \frac{\epsilon}{2}$
를 정의할 수 있다.
수없이 많은 $(|\eta_{1}|, |\eta_{2}|)$의 짝 중 다음의 하나를 요소로 갖는 벡터 $\eta$를 정의하자
$$\eta = max(|\eta_{1}|, |\eta_{2}|) $$
-. 이를 이용하여 다음의 확률 부등식을 정의할 수 있다.
$$ P(|X| \leq \eta) = F_{x}(\eta) - F_{x}(-\eta - 0) \geq 1 - \frac{\epsilon}{2} - \frac{\epsilon}{2} = 1 - \epsilon$$
위를 일반화하면 다음과 같이 표현할 수 있다.
-. $n \geq N_{\epsilon} \rightarrow P(|X_{n}| \leq B_{\epsilon}) \geq 1 - \epsilon$
즉,
를 만족하는 어떤 상수 $B_{\epsilon} > 0$과 어떤 정수 $N_{\epsilon}$이 존재한다면,
$[X_{n}]$은 확률유계라고 한다.
2) $\Delta$(Delta) 방법
${(1)}$ 모수의 함수꼴 $g(\theta)$의 미분형식(즉, $\Delta$를 의미한다)를 이용하는 방법론
${(2)}$ 아래와 같이 엄밀하게 정의할 수 있다.${X_{n}}$을 다음을 만족하는 확률변수들의 집합이라 하자
$\sqrt{n}(X_{n} - \theta) \overset{D}{\rightarrow} N(0, \sigma^{2})$
함수 g(x)를 $\theta$에서 미분 가능하다고 하고, $g'(\theta) \neq 0$ 이라고 하면
$\sqrt{n}(g(X_{n} - g(\theta)) \overset{D}{\rightarrow} N(0, sigmta^{2}(g'(\theta))^{2})$
은 성립한다.
${(1)}$ 어떤 분포의 적률생성함수를 극한으로 보냈을 때, 다른 어떤 분포의 적률생성함수로 수렴한다면 분포수렴이 성립한다는 점을 이용한 방법이다.
${(2)}$ 엄밀한 정의는 아래와 같다.
${X_{n}}$을 모든 n에 대하여 $mgf \ M_{xn}(t)$를 갖는 확률변수들의 집합이라고 하자.
또, $X$를 $mgf \ M_{x}(t)$를 갖는 확률변수라고 하자.
이 때, $lim_{n \rightarrow \infty} M_{xn}(t) = M_{x}(t)$ 이면 $X_{n} \overset{D}{\rightarrow} X$는 참이다.
${(4)}$ 예제 : 적률생성함수 방법을 이용한 이항분포의 수렴 분포 도출
$Y_{n}$ 을 이항분포 $b(n,p)$를 따르는 확률변수라고 하자.
모든 n에 대하여 모수 $\mu = np$로 같다고 하자. 이 때 모든 $p = \frac{\mu}{n}$ 이다.
이항분포의 mgf는 다음과 같다.
$$M_{y}(t) = [(1 - p) + pe^{t}]^{n} = [1 - p(e^{t} - 1)]^{n}$$
이 때, $p = \frac{\mu}{n}$ 이므로
$$M_{y}(t) = [1 - \frac{\mu(e^{t}-1)}{n}]^{n}$$
한편, 지수함수의 극한의 경우 다음의 사실이 증명되어 있다.
$$lim_{n \rightarrow \infty}[1 + \frac{b}{n} + \frac{\psi(n)}{n}]^{cn} = lim_{n \rightarrow \infty}[1 + \frac{b}{n}] = e^{bc}$$
이를 이용하여 위 식을 다시 보자.
$$lim_{n \rightarrow \infty}$[1-\frac{\mu(e^{t} - 1)}{n}]^{n}$$
여기서, $b = \mu(e^{t} - 1)$ 이므로
$lim_{n \rightarrow \infty}[1 - \frac{\mu(e^{t} - 1)}{n}]^{n} = e^{\mu(e^{t} - 1)}$
이는 푸아송 분포의 mgf와 같다.
'수리통계' 카테고리의 다른 글
29-1 다변량 중심극한정리 (0) | 2023.07.13 |
---|---|
29. 중심극한정리 (2) | 2023.07.12 |
27. 확률 수렴 (2) | 2023.07.10 |
26. 통계적 부트스트랩 (0) | 2023.07.07 |
25. 몬테카를로 방법 (0) | 2023.07.06 |