문과생 네버랜드의 데이터 창고

28. 분포수렴 본문

수리통계

28. 분포수렴

K JI 2023. 7. 11. 19:55
  1. 분포수렴이란
    1) 확률변수가 갖는 자산 중 하나인 '분포'의 수렴에만 집중한 수렴 정의법
    ${(1)}$ 엄밀하게 정의하면 다음과 같이 나타낼 수 있다.
    $[X_{n}]$ 이 확률변수의 집합이고 X가 어떤 확률변수라고 하자.
    $F_{X_{n}}$과 $F_{X}$를 각각의 확률변수들의 CDF 라고 하자.

    $C(F_{x})$를 함수 $F_{X}$가 연속인 모든 정의역의 점의 집합이라고 할 때

    $$lim_{n \rightarrow \infty} F_{X_{n}} = F_{x}$$(단, X는 $x \in C(F_{X})$에 대하여 유효하다) 

    가 참이면 $X_{n}$을 $X$에 대하여 분포수렴한다고 하고, 상징적으로
    $$X_{n} \overset{D}{\rightarrow} X$$ 로 표현한다.

    2) 마찬가지로 확률변수의 수렴을 다루는 확률수렴과 차이점은 다음과 같다.

    ${(1)}$ 확률 수렴은 분포를 고려하지 않고 확률변수 자체가 다른 확률변수에 직접적으로 수렴하는 것에 집중한다
    -. 다시말해, 무한히 많은 n이 주어진다면 $X_{n}$은 (확률적으로) $X$와 같다.

    ${(2)}$ 그에 비해, 분포수렴은 확률변수가 가지는 분포의 '모양'다른 확률변수의 분포의 '모양'점근적으로 비슷해진다는 것에 집중한다.
    -. 즉, 확률 수렴보다는 수렴에 대하여 다소나마 완화된 정의를 갖는다.

    ${(3)}$ 분포수렴의 경우 다음의 이점을 가진다.
    -. 분포간의 수렴 관계를 정의할 수 있다 :

    ①확률수렴은 분포(함수)를 고려하지 않는다.

    예를 들어, $X_{n}$를 이항분포를 따르는 확률변수라 하고, $X$를 정규분포를 따르는 확률변수라고 하자.
    이 때, 확률 수렴에 따르면 $X_{n}$은 $X$로 수렴할 수 없다. 아예 분포의 성질이 다르기 때문이다.

    ② 분포수렴은 확률수렴과는 달리 분포의 모양에 집중하기 때문에
    비록 성질이 다르더라도 모양이 동일하다면 수렴하다고 주장을 할 수 있게 된다.

    ③분포의 '모양' 측면에서 이항분포가 극한으로 가면 정규분포로 수렴한다는 점을 분포수렴을 통해 증명할 수 있다.
    (중심극한정리)
  2. 분포수렴의 성질
    1) $X_{n}$ 이 $X$로 확률수렴하면, $X_{n}$은 $X$로 분포수렴한다.
    ${(1)}$확률변수 X가 CDF $F_{X}(X)$를 갖는다고 하자.
    마찬가지로 확률변수 집합 $[X_{n}]$이 cdf $F_{X_{n}}$을 갖는다고 하자.

    -. 어떤 임의의 상수 $\epsilon > 0$을 정의하면

    -. $$F_{X_{n}} = P[X_{n} \leq X] \\ = P[(X_{n} \leq X) \cap (|X_{n} - X| < \epsilon)] + P[(X_{n} \leq X) \cap (|X_{n} - X| \geq \epsilon)] \\ \leq P[X \leq x + \epsilon] + P[|X_{n} - X| \geq \epsilon]$$
    -. 이런 분리가 가능한 이유는, 확률수렴하면 두번째 항 
    $P[(X_{n} \leq X) \cap (|X_{n} - X| \geq \epsilon)] = 0$이고
    $P[(X_{n} \leq X) \cap (|X_{n} - X| < \epsilon)] = P[(X_{n} \leq X)]$ 이기 때문이다.

    ${(2})$ 부등식과 $X_{n} \overset{p}{\rightarrow} X$ 라는 확률수렴의 성질을 이용하면 상계(upper bound)
    $\overline{lim}_{n \rightarrow \infty}F_{X_{n}}(x) \leq F_{x}[X + \epsilon]$
    이고, 그 하계(lower bound)를 구하면
    $$P[X_{n} > x] \leq P[X \geq x - \epsilon] + P[|X_{n} - X| \geq \epsilon]$$ 에서 
    $$\underline{lim}_{n \rightarrow \infty}F_{X_{n}}(x) \geq F_{x}(x - \epsilon)$$ 이다.

    상계와 하계를 이용하여 다음의 부등식을 정의할 수 있다.
    $$F_{X}(x - \epsilon) \leq \underline{lim}_{n \rightarrow \infty}F_{X_{n}}(x) \leq \overline{lim}_{n \rightarrow \infty}F_{X_{n}}(x) \leq F_{x}[x + \epsilon]$$

    $\epsilon \rightarrow 0$ 이면 샌드위치 정리에 따라 다음을 증명할 수 있다.
    $$lim_{n \rightarrow \infty}F_{X_{n}}(X) = F_{x}(X)$$
    ${(1)}$ 다만, 위 성질은 그 역은 성립하지 않음을 유의해야한다. 즉, 분포수렴한다고 해서 확률수렴을 보장하진 않는다.

    2) 확률변수가 어떠한 상수로 분포수렴하면, 그 확률변수는 그 상수로 확률수렴한다.

    어떤 임의의 상수 $\epsilon > 0$이 주어졌다고 하자.

    $$lim_{n \rightarrow \infty} P[|X_{n} - b| \leq \epsilon] = lim_{n \rightarrow \infty} F_{X_{n}}(b + \epsilon) - lim_{n \rightarrow \infty} F_{X_{n}}(b - \epsilon) = 1 - 0 = 1$$
    은 참이다.
    ${(1)}$ 상수로 분포수렴한다면, 이는 분포수렴이 확률수렴을 보장하는(즉, 역이 성립하는) 사례가 된다.

    3) $X_{n} \overset{D}{\rightarrow} X$ 이고, $Y_{n} \overset{p}{\rightarrow} 0$라고 하자. $$X_{n} + Y_{n} \overset{p}{\rightarrow} X$$는 참이다.

    4) $X_{n} \overset{D}{\rightarrow} X$ 라면, X의 범위에서 연속인 g는 $$g(X_{n}) \overset{D}{\rightarrow}g(x)$$는 참이다.

    5) 슬러츠키 정리
    $X_{n}$, $X$, $A_{n}$, $B_{n}$이 확률변수이며, a와 b를 어떤 상수라고 하자. 그러면
    $$X_{n} \overset{D}{\rightarrow} X, A_{n} \overset{p}{\rightarrow} a, B_{n} \overset{p}{\rightarrow} b$$에 대하여
    $$A_{n} + B_{n}X_{n} \overset{D}{\rightarrow} a + bX$$는 성립한다.
  3. 수렴 분포를 구하는 방법
    1) 확률 유계

    ${(1)}$ 예를들어 정규분포의 경우, 정의역은 $(-\infty, \infty) $사이에서 정의된다. 즉, 분포에 한계가 존재하지 않는다.
    -. 그러나, 어떤 분포가 다른 분포와 모양이 비슷한지를 확인하기 위해서는, 이 범위를 제한할 필요성이 있다.
    -. 이 때 유용하게 활용할 수 있는 성질이 바로 확률유계(Boundeness in probability)이다.

    ${(2)}$ 확률유계는 아래와 같이 엄밀하게 정의할 수 있다.
    $CDF \ F_{X}$를 갖는 확률변수 X가 존재한다고 하자. 또, 임의의 어떤 상수 $\epsilon >0$이 주어졌다고 하자. 그러면

    -. $X \leq \eta_{1}$ 이라는 관계가 정의될 때, $F_{x}(x) \leq \frac{\epsilon}{2}$
    -. $X > \eta_{2}$ 이라는 관계가 정의될 때 $F_{x}(X) > 1 - \frac{\epsilon}{2}$

    를 정의할 수 있다.

    수없이 많은 $(|\eta_{1}|, |\eta_{2}|)$의 짝 중 다음의 하나를 요소로 갖는 벡터 $\eta$를 정의하자
    $$\eta = max(|\eta_{1}|, |\eta_{2}|) $$
    -. 이를 이용하여 다음의 확률 부등식을 정의할 수 있다.
    $$ P(|X| \leq \eta) = F_{x}(\eta) -  F_{x}(-\eta - 0) \geq 1 - \frac{\epsilon}{2} - \frac{\epsilon}{2} = 1 - \epsilon$$  

    위를 일반화하면 다음과 같이 표현할 수 있다.
    -. $n \geq N_{\epsilon} \rightarrow P(|X_{n}| \leq B_{\epsilon}) \geq 1 - \epsilon$
    즉, 
    를 만족하는 어떤 상수 $B_{\epsilon} > 0$과 어떤 정수 $N_{\epsilon}$이 존재한다면,
    $[X_{n}]$은 확률유계라고 한다.

    2) $\Delta$(Delta) 방법
    ${(1)}$ 모수의 함수꼴 $g(\theta)$의 미분형식(즉, $\Delta$를 의미한다)를 이용하는 방법론
    ${(2)}$ 아래와 같이 엄밀하게 정의할 수 있다.
    ${X_{n}}$을 다음을 만족하는 확률변수들의 집합이라 하자

    $\sqrt{n}(X_{n} - \theta) \overset{D}{\rightarrow} N(0, \sigma^{2})$

    함수 g(x)를 $\theta$에서 미분 가능하다고 하고, $g'(\theta) \neq 0$ 이라고 하면
    $\sqrt{n}(g(X_{n} - g(\theta)) \overset{D}{\rightarrow} N(0, sigmta^{2}(g'(\theta))^{2})$
     은 성립한다.
    3) 적률생성함수 방법

    ${(1)}$ 어떤 분포의 적률생성함수를 극한으로 보냈을 때, 다른 어떤 분포의 적률생성함수로 수렴한다면 분포수렴이 성립한다는 점을 이용한 방법이다.

    ${(2)}$ 엄밀한 정의는 아래와 같다.
    ${X_{n}}$을 모든 n에 대하여 $mgf \ M_{xn}(t)$를 갖는 확률변수들의 집합이라고 하자.
    또, $X$를 $mgf \ M_{x}(t)$를 갖는 확률변수라고 하자.

    이 때, $lim_{n \rightarrow \infty} M_{xn}(t) = M_{x}(t)$ 이면 $X_{n} \overset{D}{\rightarrow} X$는 참이다.
    ${(3)}$ 적률생성함수 기법은 뒤에서 중심극한정리의 증명에 사용되므로, 필수적으로 숙지하고 넘어가야한다.

    ${(4)}$ 예제 : 적률생성함수 방법을 이용한 이항분포의 수렴 분포 도출
    $Y_{n}$ 을 이항분포 $b(n,p)$를 따르는 확률변수라고 하자.
    모든 n에 대하여 모수 $\mu = np$로 같다고 하자. 이 때 모든 $p = \frac{\mu}{n}$ 이다.

    이항분포의 mgf는 다음과 같다.
    $$M_{y}(t) = [(1 - p) + pe^{t}]^{n} = [1 - p(e^{t} - 1)]^{n}$$
    이 때, $p = \frac{\mu}{n}$ 이므로
    $$M_{y}(t) = [1 - \frac{\mu(e^{t}-1)}{n}]^{n}$$

    한편, 지수함수의 극한의 경우 다음의 사실이 증명되어 있다.

    $$lim_{n \rightarrow \infty}[1 + \frac{b}{n} + \frac{\psi(n)}{n}]^{cn} = lim_{n \rightarrow \infty}[1 + \frac{b}{n}] = e^{bc}$$

    이를 이용하여 위 식을 다시 보자.
    $$lim_{n \rightarrow \infty}$[1-\frac{\mu(e^{t} - 1)}{n}]^{n}$$
    여기서, $b = \mu(e^{t} - 1)$ 이므로

    $lim_{n \rightarrow \infty}[1 - \frac{\mu(e^{t} - 1)}{n}]^{n} = e^{\mu(e^{t} - 1)}$

    이는 푸아송 분포의 mgf와 같다.

'수리통계' 카테고리의 다른 글

29-1 다변량 중심극한정리  (0) 2023.07.13
29. 중심극한정리  (2) 2023.07.12
27. 확률 수렴  (2) 2023.07.10
26. 통계적 부트스트랩  (0) 2023.07.07
25. 몬테카를로 방법  (0) 2023.07.06