문과생 네버랜드의 데이터 창고

15-1 다변량 정규분포 본문

수리통계

15-1 다변량 정규분포

K JI 2023. 6. 20. 20:48
  1. 표준 다변량 정규분포
    1) 표준 다변량 정규분포의 pdf
    ${(1)}$ $z_{1}, ..., z_{n}$을 i.i.d이고 $N(0,1)$을 따르는 확률변수라고 할 때

    -.  이 확률표본들의 확률벡터 Z 의 결합확률밀도함수는 i.i.d에서의 조건에 따라 다음과 같이 나타낼 수 있다.
    $f_{z}(Z) = \prod_{i = 1}^{n} \frac{1}{\sqrt{2\pi}} exp(-\frac{z^{2}}{2}) = (\frac{1}{2\pi})^{\frac{n}{2}}exp(-\frac{1}{2}\sum_{i=1}^{n}z_{i}^{2})$

    -. 위 식을 벡터형식으로 고쳐서 다시 표현하면 아래와 같이 쓸 수 있다.
    $(\frac{1}{2\pi})^{\frac{n}{2}}exp(-\frac{1}{2}z^{T}z)$

    2) 평균과 공분산 행렬
    ${(1)}$ 표준 다변량 정규분포의 평균과 분산은 각각 n차원의 벡터와 nxn의 행렬로 나타난다.
    평균 $E(z)$ $\mathbf{0}$ (단, $\mathbf{0}$는 n차원의 0벡터)
    공분산행렬 $I = \begin{bmatrix} 
    1 & 0 & ... & 0 \\ 
    0 &  1 & ... & 0\\ 
    \vdots  &  \ddots  & \ddots & \vdots\\ 
    0 & 0 & ... & 1 
    \end{bmatrix}$

    대각 이외의 성분 $\sigma_{i,j}$가 0인 이유는 i.i.d를 가정했기 때문이다.

    ${(2)}$ Z의 MGF는 아래와 같이 구할 수 있다.
    각각의 확률표본 $z_{1}, ..., z_{n}$ 의 mgf는 $f_{i} = exp(\frac{t_{i}^{2}}{2})$ 와 같고, i.i.d 조건에 따라 mgf의 결합은 

    $$M_{z}(t) = E[exp(t^{2}z)] = E[\prod_{i=1}^{n}exp(t_{i}z_{i})] = \prod_{i=1}^{n}E[(exp(t_{i}z_{i})]$$
    한편, $f_{i} = exp(\frac{t_{i}^{2}}{2})$ 이므로, 이를 반영하여 위 식을 수정하면

    $$\prod_{i=1}^{n}E[(exp(t_{i}z_{i})] = \prod_{i=1}^{n}[exp(\frac{1}{2}t_{i}^{2})] = exp(\frac{1}{2}\sum_{i=1}^{n} t_{i}^{2})$$
    $exp(\frac{1}{2}\sum_{i=1}^{n} t_{i}^{2})$를 벡터 형식으로 고치면

    $$exp(\frac{1}{2}\sum_{i=1}^{n} t_{i}^{2}) = exp(\frac{1}{2}t^{T}t)$$
  2. 표준 다변량 정규분포에서 정규분포로의 확장

    1) 표준 다변량 정규분포의 확률벡터 Z에 대하여 그 공분산 행렬 $\Sigma$이 존재한다고 하자.

    ${(1)}$ 공분산 행렬은 양의 반정부호 행렬이므로, 다음과 같이 고유분해가 가능하다. 
    $$\Sigma = \Gamma ^{T} \Lambda \Gamma$$

    -. 이 때, $\Lambda$는 고윳값을 대각성분으로 가지는 행렬이고, $\Gamma$는 각 고윳값에 해당하는 고유벡터의 정규직교행렬이다.

    ${(2)}$ 정규직교행렬의 성질에 따라, $\Gamma^{-1} = \Gamma^{T}$와 같고
    -. 따라서 $$\Gamma^{T} \cdot \Gamma = I$$ 이므로 

    -. $$\Sigma = \Gamma^{T} \Lambda^{\frac{1}{2}}\Gamma \cdot \Gamma^{T} \lambda^{\frac{1}{2}}\Gamma$$로 표현 가능하다.
    ${(3)}$ 위에서 파생되어, $\Sigma^{\frac{1}{2}}$는 다음과 같이 표현이 가능하다.
    $$ \Sigma^{\frac{1}{2}} = \Gamma^{T}\Lambda^{\frac{1}{2}}\Gamma $$

    ${(4)}$ 이제, 변환 확률벡터 X를 다음과 같이 정의하자.
    $$ X = \Sigma^{\frac{1}{2}} Z + \mu $$ 
    -. 위의 경우 다변량 확률벡터의 선형성에 따라 ,
    $$E[X] = \Sigma^{\frac{1}{2}}E[Z]|_{=0} + \mu = \mu$$이고
    $$Cov(X) = \Sigma^{\frac{1}{2}} \cdot Cov(Z) \cdot \Sigma^{\frac{1}{2}} \\ = \Sigma^{\frac{1}{2}}\Sigma^{\frac{1}{2}} = \Sigma$$ 이다.

    2) 다변량 정규분포의 MGF
    ${(1)}$ 다변량 정규분포 X를 가정하자.
    -. 위에서 표준 다변량 정규분포 Z를 이용한 $X = \Sigma^{\frac{1}{2}} Z + \mu$를 정의하였으므로, 이를 이용하면
    $$E[e^{tx}] = E[e^{t^{T}(\Sigma^{\frac{1}{2}} Z + \mu)}] = E[e^{t^{T}\Sigma^{\frac{1}{2}} Z + t^{T}\mu)}] \\ = e^{t^{T}\mu} \cdot E[e^{t^{T}\Sigma^{\frac{1}{2}} Z}]$$
    이 때, $t^{T}\Sigma^{\frac{1}{2}} = w$로 치환하면, $E[e^{w^{T}z}]$이고,
    표준 다변량 정규분포의 mgf는 $exp(\frac{1}{2}t^{T}t)$ 이므로

    $$E[e^{w^{T}z}] = \frac{1}{2}e^{\frac{1}{2}w^{T}w} \\ = \frac{1}{2}e^{\frac{1}{2}(\Sigma^{\frac{1}{2}}t)^{T}(\Sigma^{\frac{1}{2}}t)}$$
    $\frac{1}{2}e^{\frac{1}{2}(\Sigma^{\frac{1}{2}}t)^{T}(\Sigma^{\frac{1}{2}}t)}$ 내부의 전치 $(\Sigma^{\frac{1}{2}}t)^{T}$ 를 풀어 내적을 수행하면 아래의 MGF 식을 얻는다.

    $$ M_{x}(t) = exp(t^{T}\mu + \frac{1}{2}t^{T}\Sigma t) $$
    3) 다변량 정규분포의 pdf

    ${(1)}$ 순서가 거꾸로 뒤집혔지만, 이제 다변량 정규분포의 pdf를 구할 수 있게 되었다.

    ${(2)}$  $X = \Sigma^{\frac{1}{2}} Z + \mu$ 를 정의했을때, 그 역함수는 $Z =  (X - \mu) \cdot \Sigma^{\frac{1}{2}}$ 이고,

    -. 따라서 |J| = $\Sigma^{\frac{1}{2}}$ 이다.

    -. 이를 이용해서 표준 다변량 정규분포의 pdf로부터 다변량 정규분포를 (일반화하여) 유도하면
    $|J| = |\Sigma|^{-1/2}$ 는 앞쪽의 상수부로 들어가고,
    $(X - \mu) \cdot \Sigma^{\frac{1}{2}}$는 $Z^{T}Z$에 대응하여 이차형식으로 넣으면

    $$f_{x}(X) = \frac{1}{{2\pi}^{\frac{n}{2}} |\Sigma|^{1/2}}exp(-\frac{1}{2}(X - \mu)^{T} \Sigma^{-1} (X - \mu))$$
  3. 다변량 정규분포의 분할
    1) 다변량 정규분포의 선형변환
    ${(1)}$ X가 $N(\mu, \Sigma)$를 따르는 다변량 정규벡터라고 하자.
    -. 상수행렬 A가 (m x n) 행렬이고, b는 임의의 상수 벡터일때 아래의 관계가 성립된다.
    $ Y = AX + b$ 라고 하자. 이 선형변환 결과 도출된 Y는 $N(A\mu + b, A \Sigma A^{T})$인 다변량 정규분포를 따른다.

    이는 다음과 같이 증명할 수 있다.
    $$M_{y}(t) = E[exp(t^{T}Y)]$$ 라고 하자. 이는 아래와 같이 전개 가능하다.
    $$E[exp(t^{T}Y)] = E[exp(t^{T}(AX + b))]$$ 
    한편, 이 기댓값은 다변량 정규분포 X에만 의존하는 기댓값이므로, 상수항을 밖으로 빼면
    $$E[exp(t^{T}(AX + b))] = exp(t^{T}b)\cdot E[exp(A^{T}t)^{T}X)]$$
    한편, $E[exp(A^{T}t)^{T}X)]$는 정규분포의 mgf에서 $t \rightarrow (A^{T}t)$로 변환한 것에 불과하므로, 이를 이용하면
    $$exp(t^{T}b)\cdot E[exp(A^{T}t)^{T}X)] = exp(t^{T}b)\cdot exp[(A^{T}t)^{T}\mu + (1/2)(A^{T}t)^{T}\Sigma(A^{T}t)]$$
    상수항 $exp(t^{T}b)$을 다시 집어넣고 정리하면
    $$ exp[t^{T}(A\mu + b) + (1/2)t^{T}A\Sigma(A^{T}t)] $$

    이 mgf는 $N(A\mu + b, A \Sigma A^{T})$ 를 따르는 분포의 MGF이고, 이로서 증명된다.

    2) 다변량 정규분포의 분할
    ${(1)}$ 벡터 X를 m차원의 벡터라고 하자
    ${(2)}$ X_{1}은 n차원의 부분벡터로, x_{2}를 p = (m - n) 차원인 부분 벡터라고 정의할 경우

    -. 이 분할을 수행해주는 분할 행렬 A를 다음과 같이 정의할 수 있다.(m =6, n = 4로 정의할 경우)


    -. 이 때, $X_{1} = AX$ 으로 표현할 수 있고, 분할된 확률벡터 $X_{1}$, $X_{2}$는 다음과 같은 평균벡터와 공분산 벡터를 가진다.
    평균벡터 $\mu = \begin{bmatrix} \mu_{1} \\ \mu_{2} \end{bmatrix}$
    공분산행렬 $\Sigma =  \begin{bmatrix} \Sigma_{1,1} &&  \Sigma_{1,2} \\ \Sigma_{2,1} && \Sigma_{2,2} \end{bmatrix}$

'수리통계' 카테고리의 다른 글

17. T분포와 F분포  (0) 2023.06.22
16. 혼합분포  (0) 2023.06.21
15. 정규분포  (2) 2023.06.19
14-1. 감마분포의 친족분포들(카이제곱, 베타, 디리클레 분포)  (0) 2023.06.01
14. 감마분포  (0) 2023.05.30