문과생 네버랜드의 데이터 창고

19-1 다변량 함수에서의 최대우도추정 본문

수리통계

19-1 다변량 함수에서의 최대우도추정

K JI 2023. 7. 18. 19:25
  1. 단변량에서 다변량 MLE로 확장
    1) 단변량에서 최대우도추정량을 구하는 방법을 살펴보았다.
    2) 이제, 이 방법론을 다변량에 대해서 구하는 방법으로 확장한다.

  2. 다변량 모수의 최대우도추정

    1) $[X_{1}, \dots X_{n}]$을 공통 pdf $f(X;\theta)$를 갖는 i.i.d라고 하자.

    2) 그 우도함수와 로그우도함수는 다음과 같이 나타낼 수 있다.
    ${(1)}$ 우도함수 
    $$ L(\theta) = \prod_{i=1}^{n} f(x_{i};\theta) $$
    ${(2)}$ 로그우도함수
    $$l(\theta) = \sum_{i=1}^{n} log f(x_{i};\theta)$$

    3) 이 때, 우리가 알고있는 모수의 집합 $[\theta_{1}, \dots, \theta_{n}]$ 에 대하여 다음의 연산을 정의한다
    $$\begin{bmatrix}
    0 \\ 0 \\ \vdots \\ 0
    \end{bmatrix} =  log \partial \begin{bmatrix}
    \theta_{1} & \theta_{2} & \dots & \theta_{n} \end{bmatrix} \times  
    \begin{bmatrix} X_{1} \\ X_{2} \\ \vdots \\ X_{n} \end{bmatrix} = \begin{bmatrix} \frac{\partial log(X_{1})}{\partial(\theta_{1})} + \dots + \frac{\partial log(X_{n})}{\partial(\theta_{1})}\\
    \frac{\partial log(X_{1})}{\partial(\theta_{2})} + \dots + \frac{\partial log(X_{n})}{\partial(\theta_{2})}\\
    \vdots\\
    \frac{\partial log(X_{1})}{\partial(\theta_{n})} + \dots + \frac{\partial log(X_{n})}{\partial(\theta_{n})}
     \end{bmatrix}$$

    즉, $$log \partial \begin{bmatrix}
    \theta_{1} & \theta_{2} & \dots & \theta_{n} \end{bmatrix} \times  
    \begin{bmatrix} X_{1} \\ X_{2} \\ \vdots \\ X_{n} \end{bmatrix} = \begin{bmatrix} \frac{\partial log(X_{1})}{\partial(\theta_{1})} + \dots + \frac{\partial log(X_{n})}{\partial(\theta_{1})}\\
    \frac{\partial log(X_{1})}{\partial(\theta_{2})} + \dots + \frac{\partial log(X_{n})}{\partial(\theta_{2})}\\
    \vdots\\
    \frac{\partial log(X_{1})}{\partial(\theta_{n})} + \dots + \frac{\partial log(X_{n})}{\partial(\theta_{n})}
     \end{bmatrix}$$의 영공간을 구하면 그것이 MLE 추정량의 해가 된다.
    ${(1)}$ 이 벡터는 모수 $[\theta_{1}, \dots, \theta_{n}]$의 최대우도추정량을 담고있는 MLE 벡터이다.

  3. 다변량 모수의 피셔정보와 효율성
    1) 다변량 모수의 피셔정보

    ${(1)}$ 다변량 피셔 정보 행렬은 다변량 모수 벡터를 입력받는 다변량 스코어 함수를 이용하는 정보 행렬이다.
    다변량 스코어 함수는 다음의 벡터로 나타낼 수 있다.

    $\theta = [\theta_{1}, \dots, \theta_{n}]$라고 할 때
     $$\bigtriangledown log f(x;\theta) = \begin{bmatrix}
    \frac{\partial f(X;\theta)}{\partial \theta_{1}} & \dots & \frac{\partial f(X;\theta)}{\partial \theta_{n}}
    \end{bmatrix}$$

    이 때, $\bigtriangledown log f(x;\theta)$를 확률변수들의 다변량 확률벡터로 간주하고,  분산 - 공분산 행렬을 구하면
    다음과 같이 나타낼 수 있다.

    $cov(\bigtriangledown log f(x;\theta)) = \begin{bmatrix}
    var(\frac{\partial f(X;\theta)}{\partial \theta_{1}}) && cov(\frac{\partial f(X;\theta)}{\partial \theta_{1}}, \frac{\partial f(X;\theta)}{\partial \theta_{2}}) && \vdots && cov(\frac{\partial f(X;\theta)}{\partial \theta_{1}} \frac{\partial f(X;\theta)}{\partial \theta_{i}}) \\
    \vdots && var(\frac{\partial f(X;\theta)}{\partial \theta_{2}}) && \ddots && \vdots \\
    \vdots && \ddots && \ddots && \vdots \\
    cov(\frac{\partial f(X;\theta)}{\partial \theta_{i}}, \frac{\partial f(X;\theta)}{\partial \theta_{1}}) && cov(\frac{\partial f(X;\theta)}{\partial \theta_{i}}, \frac{\partial f(X;\theta)}{\partial \theta_{2}}) && 
    \dots &&
    var(\frac{\partial f(X;\theta)}{\partial \theta_{i}})
    \end{bmatrix}$
    이것 바로 스코어 함수의 분산, 즉 피셔 정보 행렬 $I(\theta)$이 된다.
    단변량 때와 마찬가지로, 이계 미분꼴의 기댓값( 혹은 스코어함수의 제곱의 기댓값) 형태로 이를 나타낼 수 있다.

    $$ 1 = \int f(x;\theta)dx$$에서 양분을 미분하면
    $$0 = \int \frac{\partial f(x;\theta)}{\partial \theta_{j}}dx = \int \frac{\partial log f(x;\theta)}{\partial \theta_{j}}f(x;\theta)dx, (j = 1, ... n) = E(\frac{\partial log f(x;\theta)}{\partial \theta_{j}})$$ 

    여기서 한번 더 미분해서 이계미분을 가져가면
    $$0 = \int \frac{\partial^{2} log f(x;\theta)}{\partial \theta_{j}\partial \theta_{k}}f(x;\theta)dx + \int [\frac{\partial log f(x;\theta)}{\partial \theta_{j}}][\frac{\partial log f(x;\theta)}{\partial \theta_{k}}]f(x;\theta)dx$$
    위 식중 첫번째항을 좌변으로 이항하면
    $$-\int \frac{\partial^{2} log f(x;\theta)}{\partial \theta_{j}\partial \theta_{k}}f(x;\theta)dx =\int [\frac{\partial log f(x;\theta)}{\partial \theta_{j}}][\frac{\partial log f(x;\theta)}{\partial \theta_{k}}]f(x;\theta)dx $$
    단변량에서와 마찬가지로, 
    $$I(\theta) = -E[\frac{\partial^{2} log f(x;\theta)}{\partial \theta_{j}\partial \theta_{k}}] = E[\frac{\partial log f(x;\theta)}{\partial \theta_{j}}\frac{\partial log f(x;\theta)}{\partial \theta_{k}}]
    단(j = 1 ... n, k = 1... n)]$$

    한편, 공분산 $cov(x,y) = E(XY) - E(X)E(Y)$에서 $E(X)E(Y)$는 위에서 정의한 바에 따라 0과 같고
    $$E(XY) = E[\frac{\partial log f(x;\theta)}{\partial \theta_{j}}\frac{\partial log f(x;\theta)}{\partial \theta_{k}}] = -E[\frac{\partial^{2} log f(x;\theta)}{\partial \theta_{j}\partial \theta_{k}}] = I(\theta)$$
    이므로, 이는 피셔정보행렬과 우리가 지금 구한 기댓값의 꼴을 연결지어주는 가교 역할을 한다.

    $$cov(\frac{\partial f(X;\theta)}{\partial \theta_{1}} \frac{\partial f(X;\theta)}{\partial \theta_{i}}) = -E[\frac{\partial^{2} log f(x;\theta)}{\partial \theta_{j}\partial \theta_{k}}]$$
    란 사실을 이용하여 

    $$\begin{bmatrix}
    var(\frac{\partial f(X;\theta)}{\partial \theta_{1}}) && cov(\frac{\partial f(X;\theta)}{\partial \theta_{1}}, \frac{\partial f(X;\theta)}{\partial \theta_{2}}) && \vdots && cov(\frac{\partial f(X;\theta)}{\partial \theta_{1}} \frac{\partial f(X;\theta)}{\partial \theta_{i}}) \\
    \vdots && var(\frac{\partial f(X;\theta)}{\partial \theta_{2}}) && \ddots && \vdots \\
    \vdots && \ddots && \ddots && \vdots \\
    cov(\frac{\partial f(X;\theta)}{\partial \theta_{i}}, \frac{\partial f(X;\theta)}{\partial \theta_{1}}) && cov(\frac{\partial f(X;\theta)}{\partial \theta_{i}}, \frac{\partial f(X;\theta)}{\partial \theta_{2}}) && 
    \dots &&
    var(\frac{\partial f(X;\theta)}{\partial \theta_{i}})
    \end{bmatrix} $$ = $$ \begin{bmatrix}
    -E[\frac{\partial^{2} log f(x;\theta)}{\partial \theta_{1}^{2}}] && -E[\frac{\partial^{2} log f(x;\theta)}{\partial \theta_{1}\partial \theta_{2}}] && \vdots && -E[\frac{\partial^{2} log f(x;\theta)}{\partial \theta_{1}\partial \theta_{k}}] \\
    \vdots && -E[\frac{\partial^{2} log f(x;\theta)}{\partial \theta_{2}^{2}}] && \ddots && \vdots \\
    \vdots && \ddots && \ddots && \vdots \\
    -E[\frac{\partial^{2} log f(x;\theta)}{\partial \theta_{k}\partial \theta_{1}}] &&-E[\frac{\partial^{2} log f(x;\theta)}{\partial \theta_{k}\partial \theta_{2}}] && 
    \dots &&
    -E[\frac{\partial^{2} log f(x;\theta)}{\partial \theta_{k}^{2}}]
    \end{bmatrix}$$

    이다. 이것이 바로 피셔정보행렬이다.
    2) 다변량의 불편추정량의 효율성
    ${(1)}$ 단변량에서와 마찬가지로, 다변량에서도 라오-크래머 하한과 같은 모수에 추정량에 대한 분산 하한을 정의할 수 있다.

    -. 모수의 열 $\theta = [\theta_{1}, \dots, \theta_{n}]$에 대하여, 각각의 모수에 대하여 피셔정보행렬의 대각성분을 가져와 다음을 구한다.

    통계량 $Y_{j} = u_{j}(X_{1}, \dots X_{n})$를 정의하고, 이 통계량인 모수 $\theta_{j}$의 불편추정량이라고 하자.

    $Y_{j}$의 분산이 다음의 부등식 중 하한값을 가지면, $Y_{j}$를 효율적이라고 표현한다.

    $$Var(Y_{j}) \geq \frac{1}{n}[I^{-1}(\theta)]_{jj}$$

    3) 다변량 최대우도추정량의 근사 효율성

    ${(1)}$ 단변랑때와 마찬가지로, 다변량 최대우도추정량은 근사적으로 효율적임을 보일 수 있다.
    $X_{1}, \dots X_{n}$을 pdf $f(x;\theta)$를 따르는 변수에서 추출한 i.i.d라고 하자.

    ① MLE 추정량 $\frac{\partial l(\theta)}{\partial \theta} = 0$은 $\widehat{\theta_{n}} \overset{P}{\rightarrow} \theta$ 로 정의되는 해 $\widehat{\theta_{n}}$를 가진다.
    ② ①의 조건을 만족하는 모수의 집합 $\theta = [\theta_{1}, \dots, \theta_{n}]$에 대하여 
    $$\sqrt{n}(\widehat{\theta_{n}} - \theta) \overset{D}{\rightarrow} N_{p}[0, I^{-1}(\theta)]$$
    는 참이다.
    이 때 $N_{p}$는 P차원의 다변량 정규분포이고, $I^{-1}(\theta)$는 피셔정보행렬의 역행렬이다.
    -. 일단은 위 정리들을 증명 없이 받아들이기로 하자

    -. 위 정리에 따르면, n의 크기가 커질수록 MLE 추정량 $\widehat{\theta_{n}}$는 근사적으로 $N_{p}[0, I^{-1}(\theta)]$로 수렴한다.

    -. 이 때, 그 분산인 $I^{-1}(\theta)$는 모수가 가질수 있는 이론적인 분산의 한계이므로, 이로서 다변량 MLE 추정량이 근사적으로 효율적임을 증명할 수 있다. 

    ${(2)}$ 한편, 근사 효율성을 증명하기 위해 도출했던 위 정리에서 다음의 따름정리도 파생시킬 수 있다.
    G를 $1 \leq k \leq p$에서 다음의 변환이라고 정의하자
    $$g(\theta) = \begin{bmatrix}
    g_{1}(\theta) \\
    \dots \\
    g_{k}(\theta)
    \end{bmatrix}$$
    또한, B를 다음과 같이 정의하자
    $$B = \begin{bmatrix}
    \frac{g_{1}(\theta)}{\theta_{1}} && \dots && \frac{g_{1}(\theta)}{\theta_{p}} \\
    \dots && \ddots && \dots \\
    \frac{g_{k}(\theta)}{\theta_{1}} && \dots && \frac{g_{k}(\theta)}{\theta_{p}}
    \end{bmatrix}$$ 
    즉, 변환 G에[ 대한 편미분행렬이다.

    이 때, 다음 또한 참이다.
    ①MLE 추정량 : $\widehat{\theta}$을 MLE 추정량이라고 할 때, $\widehat{\gamma} = g(\widehat{\theta})$ 면 $\widehat{\gamma}$은 마찬가지로 $\gamma = g(\theta)$의 MLE 추정량이다.  
    ② ①의 조건을 만족하는 $\widehat{\theta}$의 함수꼴 $\widehat{\gamma}$의 집합에 대하여 $\sqrt{n}(\widehat{\gamma} - \gamma) \overset{D}{\rightarrow} N_{p}[0, BI^{-1}(\theta)B^{T}]$ 이다.
    ${(2)}$ 위 따름정리를 해석하면 아래와 같다.

    -. MLE 추정량의 함수꼴은 마찬가지로 (동일한 함수의) 모수의 함수꼴MLE 추정량이 된다. MLE의 성질이 추정량에서 그 함수로도 확장될 수 있음을 보인다.
    (단, MLE 추정량의 함수꼴이 모수의 MLE 추정량은 아님에 유의해야한다.)

    -. 마찬가지로, MLE 추정량의 함수꼴근사적으로 효율적이다.

    -. 또, 마지막 사실에서 MLE 추정량의 함수의 피셔정보행렬은 다음과 같이 도출할 수 있다.
    $$I(\gamma) =  [BI^{-1}(\theta)B^{T}]^{-1}$$

  4. 사례로 보는 적용방법
    1) 정규 모형하에서의 다변량 최대우도추정
    $X_{1}, ... X_{n}$이 $N(\mu, \sigma^{2})$에서 추출한 i.i.d라고 하자.

    모수 집합은 다음과 같이 정의할 수 있다.
    $$\theta = \begin{bmatrix}
    \mu \\
    \sigma^{2} 
    \end{bmatrix}, 이 때 공간 \omega = \begin{bmatrix}
    (-\infty, \infty) \\
    (0, \infty) 
    \end{bmatrix}$$

    로그 우도 함수는 다음과 같이 정의할 수 있다.
    $$l(\theta) = -\frac{n}{2}log 2\pi - nlog\sigma - \frac{1}{2\sigma^{2}}\sum(x_{i} - \mu)^{2} \dots ①$$
    스코어 함수를 이용하여 최대우도추정량을 벡터 형식으로 정의하면
    $$\begin{bmatrix}
    \mu_{mle} \\
    \sigma^{2}_{mle} 
    \end{bmatrix} = log \partial[\mu,\sigma^{2}] \times \begin{bmatrix}
    f(X_{1}) \\
    \dots \\
    f(X_{n}) 
    \end{bmatrix} = 0$$ 이므로
    $$\begin{bmatrix}
    \mu_{mle} \\
    \sigma^{2}_{mle} 
    \end{bmatrix} = \begin{bmatrix}
    \frac{1}{sigma^{2}}\sum(x_{i} - \mu) \\
    \frac{1}{sigma^{2}} - \frac{3}{sigma^{$}}\sum(x_{i} - \mu)^{2}
    \end{bmatrix} = 0$$
    을 만족하는 영공간의 해를 구하면
    $$\begin{bmatrix}
    \mu_{mle} \\
    \sigma^{2}_{mle} 
    \end{bmatrix} = \begin{bmatrix}
    \frac{\sum(X_{i})}{n}  \\
    \frac{\sqrt{\sum(X_{i} - \mu)^{2}}}{n} 
    \end{bmatrix}$$
    이다.
    2) 다변량 정규모형하에서의 피셔정보행렬 
    1)의 전개를 식 ① 전까지 가져온다.

    로그우도 $$l(\theta) = -\frac{n}{2}log 2\pi - nlog\sigma - \frac{1}{2\sigma^{2}}\sum(x_{i} - \mu)^{2} \dots ①$$ 를 이용하여 피셔정보를 구하면
    $$ \begin{bmatrix}
    -E[\frac{\partial^{2} log f(x;\theta)}{\partial \mu^{2}}] && -E[\frac{\partial^{2} log f(x;\theta)}{\partial \mu_{1}\partial \sigma^{2}_{2}}] \\
    -E[\frac{\partial^{2} log f(x;\theta)}{\partial \mu_{1}\partial \sigma^{2}_{2}}] &&
    -E[\frac{\partial^{2} log f(x;\theta)}{\partial (\sigma^{2})^{2}}]
    \end{bmatrix}$$
    에서 각각의 요소값을 구한다.

    ① $\frac{\partial^{2} log f(x;\theta)}{\partial \mu^{2}} = -\frac{1}{2\sigma^{2}}$
    ② $\frac{\partial^{2} log f(x;\theta)}{\partial (\sigma^{2})^{2}} = -\frac{1}{2\sigma^{2}} - \frac{3}{\sigma^{4}}(X_{i} - \mu)^{2}$
    ③$\frac{\partial^{2} log f(x;\theta)}{\partial \mu_{1}\partial \sigma^{2}_{2}} = \frac{\partial[\frac{1}{\sigma^{2}}(X_{i} - \mu)]}{\partial \sigma^{2}} = \frac{2}{\sigma^{3}}(X_{i}-\mu)$

    위에서 구한 이계 미분들의 기댓값을 구하면
    ① $-E(-\frac{1}{2\sigma^{2}}) = \frac{1}{2\sigma^{2}}$
    ② $-E(-\frac{1}{2\sigma^{2}} - \frac{3}{\sigma^{4}}(X_{i} - \mu)^{2}) = -(\frac{1}{\sigma^{2}} - \frac{3}{\sigma^{4}}\sigma^{2}) = \frac{2}{\sigma^{2}}$
    ③ $-E(\frac{2}{\sigma^{3}}(X_{i}-\mu)) = \frac{2}{\sigma^{3}} \cdot 0 = 0$

    따라서, 피셔정보행렬은 아래와 같이 나타낼 수 있다.
    $$ \begin{bmatrix}
    \frac{1}{2\sigma^{2}} && 0\\
    0 && \frac{2}{\sigma^{2}}
    \end{bmatrix}$$
    3) 다변량 정규모형에서의 불편추정량의 최저 하한
    2) 에서 피셔정보행렬을 가져온다. 
    $$ \begin{bmatrix}
    \frac{1}{2\sigma^{2}} && 0\\
    0 && \frac{2}{\sigma^{2}}
    \end{bmatrix}$$
    이 때, 변환 $g(\theta) = \sigma^{2}$을 정의하자.
    편미분행렬(벡터) B는 다음과 같이 정의할 수 있다.

    $$B = \begin{bmatrix}
    \frac{g_{1}(\theta)}{\mu} && \frac{g_{1}(\theta)}{\sigma}
    \end{bmatrix} = [0,2\sigma]$$

    이 때, 이 MLE 추정량의 함수꼴의 피셔정보행렬은 다음과 같이 구할 수 있다.
    $$I(\gamma) =  [BI^{-1}(\theta)B^{T}]^{-1} \\ = [0, 2\sigma] \cdot \begin{bmatrix}
    \frac{1}{2\sigma^{2}} && 0\\
    0 && \frac{2}{\sigma^{2}}
    \end{bmatrix}^{-1} \cdot [0, 2\sigma]^{T}]^{-1} = \frac{1}{2\sigma^{4}}$$

    따라서, $I(\gamma) = \sigma^{2}$의 최저 하한은 $(2\sigma^{2}/n)$ 이다. 

'수리통계' 카테고리의 다른 글

32. EM 알고리즘(with GMM)  (2) 2023.07.20
31-1 다중 모수의 최대우도검정  (0) 2023.07.19
31. 최대우도검정  (0) 2023.07.17
30. 라오-크래머 한계와 효율성  (0) 2023.07.14
29-1 다변량 중심극한정리  (0) 2023.07.13