Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 미적분 #사인과 코사인의 도함수
- 미적분
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #고유분해
- 프로그래머를 위한 선형대수 #선형대수 #행렬계산
- 프로그래머를 위한 선형대수 #선형대수 #고유분해 #고윳값 #고유벡터
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #야코비 회전법 #QR법 #하우스홀더반사 #행렬회전
- mmm
- Optimization
- 미적분 #접선의 방정식 #최적화 #뉴턴법 #뉴턴-랩슨법
- 프로그래머를 위한 선형대수 #선형대수 #LU분해
- lightweightmmm
- 시계열분석 #Time-Series Analysis #이상탐지 #Anomaly Detection #Spectral Residual #CNN #SR-CNN
- Media Mix Modeling
- 미적분 #평균값 정리 #로피탈의 정리 #접선의 방정식
- bayesian inference
- Marketing Mix Modeling
- bayesian
- 수리통계
Archives
- Today
- Total
문과생 네버랜드의 데이터 창고
19-1 다변량 함수에서의 최대우도추정 본문
-
단변량에서 다변량 MLE로 확장
1) 단변량에서 최대우도추정량을 구하는 방법을 살펴보았다.
2) 이제, 이 방법론을 다변량에 대해서 구하는 방법으로 확장한다. - 다변량 모수의 최대우도추정
1) $[X_{1}, \dots X_{n}]$을 공통 pdf $f(X;\theta)$를 갖는 i.i.d라고 하자.
2) 그 우도함수와 로그우도함수는 다음과 같이 나타낼 수 있다.
${(1)}$ 우도함수
$$ L(\theta) = \prod_{i=1}^{n} f(x_{i};\theta) $$
${(2)}$ 로그우도함수
$$l(\theta) = \sum_{i=1}^{n} log f(x_{i};\theta)$$
3) 이 때, 우리가 알고있는 모수의 집합 $[\theta_{1}, \dots, \theta_{n}]$ 에 대하여 다음의 연산을 정의한다
$$\begin{bmatrix}
0 \\ 0 \\ \vdots \\ 0
\end{bmatrix} = log \partial \begin{bmatrix}
\theta_{1} & \theta_{2} & \dots & \theta_{n} \end{bmatrix} \times
\begin{bmatrix} X_{1} \\ X_{2} \\ \vdots \\ X_{n} \end{bmatrix} = \begin{bmatrix} \frac{\partial log(X_{1})}{\partial(\theta_{1})} + \dots + \frac{\partial log(X_{n})}{\partial(\theta_{1})}\\
\frac{\partial log(X_{1})}{\partial(\theta_{2})} + \dots + \frac{\partial log(X_{n})}{\partial(\theta_{2})}\\
\vdots\\
\frac{\partial log(X_{1})}{\partial(\theta_{n})} + \dots + \frac{\partial log(X_{n})}{\partial(\theta_{n})}
\end{bmatrix}$$
즉, $$log \partial \begin{bmatrix}
\theta_{1} & \theta_{2} & \dots & \theta_{n} \end{bmatrix} \times
\begin{bmatrix} X_{1} \\ X_{2} \\ \vdots \\ X_{n} \end{bmatrix} = \begin{bmatrix} \frac{\partial log(X_{1})}{\partial(\theta_{1})} + \dots + \frac{\partial log(X_{n})}{\partial(\theta_{1})}\\
\frac{\partial log(X_{1})}{\partial(\theta_{2})} + \dots + \frac{\partial log(X_{n})}{\partial(\theta_{2})}\\
\vdots\\
\frac{\partial log(X_{1})}{\partial(\theta_{n})} + \dots + \frac{\partial log(X_{n})}{\partial(\theta_{n})}
\end{bmatrix}$$의 영공간을 구하면 그것이 MLE 추정량의 해가 된다. - 다변량 모수의 피셔정보와 효율성
1) 다변량 모수의 피셔정보
${(1)}$ 다변량 피셔 정보 행렬은 다변량 모수 벡터를 입력받는 다변량 스코어 함수를 이용하는 정보 행렬이다.
다변량 스코어 함수는 다음의 벡터로 나타낼 수 있다.
$\theta = [\theta_{1}, \dots, \theta_{n}]$라고 할 때
$$\bigtriangledown log f(x;\theta) = \begin{bmatrix}
\frac{\partial f(X;\theta)}{\partial \theta_{1}} & \dots & \frac{\partial f(X;\theta)}{\partial \theta_{n}}
\end{bmatrix}$$
이 때, $\bigtriangledown log f(x;\theta)$를 확률변수들의 다변량 확률벡터로 간주하고, 분산 - 공분산 행렬을 구하면
다음과 같이 나타낼 수 있다.
$cov(\bigtriangledown log f(x;\theta)) = \begin{bmatrix}
var(\frac{\partial f(X;\theta)}{\partial \theta_{1}}) && cov(\frac{\partial f(X;\theta)}{\partial \theta_{1}}, \frac{\partial f(X;\theta)}{\partial \theta_{2}}) && \vdots && cov(\frac{\partial f(X;\theta)}{\partial \theta_{1}} \frac{\partial f(X;\theta)}{\partial \theta_{i}}) \\
\vdots && var(\frac{\partial f(X;\theta)}{\partial \theta_{2}}) && \ddots && \vdots \\
\vdots && \ddots && \ddots && \vdots \\
cov(\frac{\partial f(X;\theta)}{\partial \theta_{i}}, \frac{\partial f(X;\theta)}{\partial \theta_{1}}) && cov(\frac{\partial f(X;\theta)}{\partial \theta_{i}}, \frac{\partial f(X;\theta)}{\partial \theta_{2}}) &&
\dots &&
var(\frac{\partial f(X;\theta)}{\partial \theta_{i}})
\end{bmatrix}$
이것 바로 스코어 함수의 분산, 즉 피셔 정보 행렬 $I(\theta)$이 된다.단변량 때와 마찬가지로, 이계 미분꼴의 기댓값( 혹은 스코어함수의 제곱의 기댓값) 형태로 이를 나타낼 수 있다.
$$ 1 = \int f(x;\theta)dx$$에서 양분을 미분하면
$$0 = \int \frac{\partial f(x;\theta)}{\partial \theta_{j}}dx = \int \frac{\partial log f(x;\theta)}{\partial \theta_{j}}f(x;\theta)dx, (j = 1, ... n) = E(\frac{\partial log f(x;\theta)}{\partial \theta_{j}})$$
여기서 한번 더 미분해서 이계미분을 가져가면
$$0 = \int \frac{\partial^{2} log f(x;\theta)}{\partial \theta_{j}\partial \theta_{k}}f(x;\theta)dx + \int [\frac{\partial log f(x;\theta)}{\partial \theta_{j}}][\frac{\partial log f(x;\theta)}{\partial \theta_{k}}]f(x;\theta)dx$$
위 식중 첫번째항을 좌변으로 이항하면
$$-\int \frac{\partial^{2} log f(x;\theta)}{\partial \theta_{j}\partial \theta_{k}}f(x;\theta)dx =\int [\frac{\partial log f(x;\theta)}{\partial \theta_{j}}][\frac{\partial log f(x;\theta)}{\partial \theta_{k}}]f(x;\theta)dx $$
단변량에서와 마찬가지로,
$$I(\theta) = -E[\frac{\partial^{2} log f(x;\theta)}{\partial \theta_{j}\partial \theta_{k}}] = E[\frac{\partial log f(x;\theta)}{\partial \theta_{j}}\frac{\partial log f(x;\theta)}{\partial \theta_{k}}]
단(j = 1 ... n, k = 1... n)]$$
한편, 공분산 $cov(x,y) = E(XY) - E(X)E(Y)$에서 $E(X)E(Y)$는 위에서 정의한 바에 따라 0과 같고
$$E(XY) = E[\frac{\partial log f(x;\theta)}{\partial \theta_{j}}\frac{\partial log f(x;\theta)}{\partial \theta_{k}}] = -E[\frac{\partial^{2} log f(x;\theta)}{\partial \theta_{j}\partial \theta_{k}}] = I(\theta)$$
이므로, 이는 피셔정보행렬과 우리가 지금 구한 기댓값의 꼴을 연결지어주는 가교 역할을 한다.
$$cov(\frac{\partial f(X;\theta)}{\partial \theta_{1}} \frac{\partial f(X;\theta)}{\partial \theta_{i}}) = -E[\frac{\partial^{2} log f(x;\theta)}{\partial \theta_{j}\partial \theta_{k}}]$$
란 사실을 이용하여
$$\begin{bmatrix}
var(\frac{\partial f(X;\theta)}{\partial \theta_{1}}) && cov(\frac{\partial f(X;\theta)}{\partial \theta_{1}}, \frac{\partial f(X;\theta)}{\partial \theta_{2}}) && \vdots && cov(\frac{\partial f(X;\theta)}{\partial \theta_{1}} \frac{\partial f(X;\theta)}{\partial \theta_{i}}) \\
\vdots && var(\frac{\partial f(X;\theta)}{\partial \theta_{2}}) && \ddots && \vdots \\
\vdots && \ddots && \ddots && \vdots \\
cov(\frac{\partial f(X;\theta)}{\partial \theta_{i}}, \frac{\partial f(X;\theta)}{\partial \theta_{1}}) && cov(\frac{\partial f(X;\theta)}{\partial \theta_{i}}, \frac{\partial f(X;\theta)}{\partial \theta_{2}}) &&
\dots &&
var(\frac{\partial f(X;\theta)}{\partial \theta_{i}})
\end{bmatrix} $$ = $$ \begin{bmatrix}
-E[\frac{\partial^{2} log f(x;\theta)}{\partial \theta_{1}^{2}}] && -E[\frac{\partial^{2} log f(x;\theta)}{\partial \theta_{1}\partial \theta_{2}}] && \vdots && -E[\frac{\partial^{2} log f(x;\theta)}{\partial \theta_{1}\partial \theta_{k}}] \\
\vdots && -E[\frac{\partial^{2} log f(x;\theta)}{\partial \theta_{2}^{2}}] && \ddots && \vdots \\
\vdots && \ddots && \ddots && \vdots \\
-E[\frac{\partial^{2} log f(x;\theta)}{\partial \theta_{k}\partial \theta_{1}}] &&-E[\frac{\partial^{2} log f(x;\theta)}{\partial \theta_{k}\partial \theta_{2}}] &&
\dots &&
-E[\frac{\partial^{2} log f(x;\theta)}{\partial \theta_{k}^{2}}]
\end{bmatrix}$$
이다. 이것이 바로 피셔정보행렬이다.
${(1)}$ 단변량에서와 마찬가지로, 다변량에서도 라오-크래머 하한과 같은 모수에 추정량에 대한 분산 하한을 정의할 수 있다.
-. 모수의 열 $\theta = [\theta_{1}, \dots, \theta_{n}]$에 대하여, 각각의 모수에 대하여 피셔정보행렬의 대각성분을 가져와 다음을 구한다.
통계량 $Y_{j} = u_{j}(X_{1}, \dots X_{n})$를 정의하고, 이 통계량인 모수 $\theta_{j}$의 불편추정량이라고 하자.
$Y_{j}$의 분산이 다음의 부등식 중 하한값을 가지면, $Y_{j}$를 효율적이라고 표현한다.
$$Var(Y_{j}) \geq \frac{1}{n}[I^{-1}(\theta)]_{jj}$$
3) 다변량 최대우도추정량의 근사 효율성
${(1)}$ 단변랑때와 마찬가지로, 다변량 최대우도추정량은 근사적으로 효율적임을 보일 수 있다.
$X_{1}, \dots X_{n}$을 pdf $f(x;\theta)$를 따르는 변수에서 추출한 i.i.d라고 하자.
① MLE 추정량 $\frac{\partial l(\theta)}{\partial \theta} = 0$은 $\widehat{\theta_{n}} \overset{P}{\rightarrow} \theta$ 로 정의되는 해 $\widehat{\theta_{n}}$를 가진다.
② ①의 조건을 만족하는 모수의 집합 $\theta = [\theta_{1}, \dots, \theta_{n}]$에 대하여
$$\sqrt{n}(\widehat{\theta_{n}} - \theta) \overset{D}{\rightarrow} N_{p}[0, I^{-1}(\theta)]$$
는 참이다.
이 때 $N_{p}$는 P차원의 다변량 정규분포이고, $I^{-1}(\theta)$는 피셔정보행렬의 역행렬이다.
-. 위 정리에 따르면, n의 크기가 커질수록 MLE 추정량 $\widehat{\theta_{n}}$는 근사적으로 $N_{p}[0, I^{-1}(\theta)]$로 수렴한다.
-. 이 때, 그 분산인 $I^{-1}(\theta)$는 모수가 가질수 있는 이론적인 분산의 한계이므로, 이로서 다변량 MLE 추정량이 근사적으로 효율적임을 증명할 수 있다.
${(2)}$ 한편, 근사 효율성을 증명하기 위해 도출했던 위 정리에서 다음의 따름정리도 파생시킬 수 있다.G를 $1 \leq k \leq p$에서 다음의 변환이라고 정의하자
$$g(\theta) = \begin{bmatrix}
g_{1}(\theta) \\
\dots \\
g_{k}(\theta)
\end{bmatrix}$$
또한, B를 다음과 같이 정의하자
$$B = \begin{bmatrix}
\frac{g_{1}(\theta)}{\theta_{1}} && \dots && \frac{g_{1}(\theta)}{\theta_{p}} \\
\dots && \ddots && \dots \\
\frac{g_{k}(\theta)}{\theta_{1}} && \dots && \frac{g_{k}(\theta)}{\theta_{p}}
\end{bmatrix}$$
즉, 변환 G에[ 대한 편미분행렬이다.
이 때, 다음 또한 참이다.
①MLE 추정량 : $\widehat{\theta}$을 MLE 추정량이라고 할 때, $\widehat{\gamma} = g(\widehat{\theta})$ 면 $\widehat{\gamma}$은 마찬가지로 $\gamma = g(\theta)$의 MLE 추정량이다.
② ①의 조건을 만족하는 $\widehat{\theta}$의 함수꼴 $\widehat{\gamma}$의 집합에 대하여 $\sqrt{n}(\widehat{\gamma} - \gamma) \overset{D}{\rightarrow} N_{p}[0, BI^{-1}(\theta)B^{T}]$ 이다.
-. MLE 추정량의 함수꼴은 마찬가지로 (동일한 함수의) 모수의 함수꼴의 MLE 추정량이 된다. MLE의 성질이 추정량에서 그 함수로도 확장될 수 있음을 보인다.
(단, MLE 추정량의 함수꼴이 모수의 MLE 추정량은 아님에 유의해야한다.)
-. 마찬가지로, MLE 추정량의 함수꼴은 근사적으로 효율적이다.
-. 또, 마지막 사실에서 MLE 추정량의 함수의 피셔정보행렬은 다음과 같이 도출할 수 있다.
$$I(\gamma) = [BI^{-1}(\theta)B^{T}]^{-1}$$ - 사례로 보는 적용방법
1) 정규 모형하에서의 다변량 최대우도추정
$X_{1}, ... X_{n}$이 $N(\mu, \sigma^{2})$에서 추출한 i.i.d라고 하자.
모수 집합은 다음과 같이 정의할 수 있다.
$$\theta = \begin{bmatrix}
\mu \\
\sigma^{2}
\end{bmatrix}, 이 때 공간 \omega = \begin{bmatrix}
(-\infty, \infty) \\
(0, \infty)
\end{bmatrix}$$
로그 우도 함수는 다음과 같이 정의할 수 있다.
$$l(\theta) = -\frac{n}{2}log 2\pi - nlog\sigma - \frac{1}{2\sigma^{2}}\sum(x_{i} - \mu)^{2} \dots ①$$
스코어 함수를 이용하여 최대우도추정량을 벡터 형식으로 정의하면
$$\begin{bmatrix}
\mu_{mle} \\
\sigma^{2}_{mle}
\end{bmatrix} = log \partial[\mu,\sigma^{2}] \times \begin{bmatrix}
f(X_{1}) \\
\dots \\
f(X_{n})
\end{bmatrix} = 0$$ 이므로
$$\begin{bmatrix}
\mu_{mle} \\
\sigma^{2}_{mle}
\end{bmatrix} = \begin{bmatrix}
\frac{1}{sigma^{2}}\sum(x_{i} - \mu) \\
\frac{1}{sigma^{2}} - \frac{3}{sigma^{$}}\sum(x_{i} - \mu)^{2}
\end{bmatrix} = 0$$
을 만족하는 영공간의 해를 구하면
$$\begin{bmatrix}
\mu_{mle} \\
\sigma^{2}_{mle}
\end{bmatrix} = \begin{bmatrix}
\frac{\sum(X_{i})}{n} \\
\frac{\sqrt{\sum(X_{i} - \mu)^{2}}}{n}
\end{bmatrix}$$
이다.1)의 전개를 식 ① 전까지 가져온다.
로그우도 $$l(\theta) = -\frac{n}{2}log 2\pi - nlog\sigma - \frac{1}{2\sigma^{2}}\sum(x_{i} - \mu)^{2} \dots ①$$ 를 이용하여 피셔정보를 구하면
$$ \begin{bmatrix}
-E[\frac{\partial^{2} log f(x;\theta)}{\partial \mu^{2}}] && -E[\frac{\partial^{2} log f(x;\theta)}{\partial \mu_{1}\partial \sigma^{2}_{2}}] \\
-E[\frac{\partial^{2} log f(x;\theta)}{\partial \mu_{1}\partial \sigma^{2}_{2}}] &&
-E[\frac{\partial^{2} log f(x;\theta)}{\partial (\sigma^{2})^{2}}]
\end{bmatrix}$$
에서 각각의 요소값을 구한다.
① $\frac{\partial^{2} log f(x;\theta)}{\partial \mu^{2}} = -\frac{1}{2\sigma^{2}}$
② $\frac{\partial^{2} log f(x;\theta)}{\partial (\sigma^{2})^{2}} = -\frac{1}{2\sigma^{2}} - \frac{3}{\sigma^{4}}(X_{i} - \mu)^{2}$
③$\frac{\partial^{2} log f(x;\theta)}{\partial \mu_{1}\partial \sigma^{2}_{2}} = \frac{\partial[\frac{1}{\sigma^{2}}(X_{i} - \mu)]}{\partial \sigma^{2}} = \frac{2}{\sigma^{3}}(X_{i}-\mu)$
위에서 구한 이계 미분들의 기댓값을 구하면
① $-E(-\frac{1}{2\sigma^{2}}) = \frac{1}{2\sigma^{2}}$
② $-E(-\frac{1}{2\sigma^{2}} - \frac{3}{\sigma^{4}}(X_{i} - \mu)^{2}) = -(\frac{1}{\sigma^{2}} - \frac{3}{\sigma^{4}}\sigma^{2}) = \frac{2}{\sigma^{2}}$
③ $-E(\frac{2}{\sigma^{3}}(X_{i}-\mu)) = \frac{2}{\sigma^{3}} \cdot 0 = 0$
따라서, 피셔정보행렬은 아래와 같이 나타낼 수 있다.
$$ \begin{bmatrix}
\frac{1}{2\sigma^{2}} && 0\\
0 && \frac{2}{\sigma^{2}}
\end{bmatrix}$$2) 에서 피셔정보행렬을 가져온다.
$$ \begin{bmatrix}
\frac{1}{2\sigma^{2}} && 0\\
0 && \frac{2}{\sigma^{2}}
\end{bmatrix}$$
이 때, 변환 $g(\theta) = \sigma^{2}$을 정의하자.
편미분행렬(벡터) B는 다음과 같이 정의할 수 있다.
$$B = \begin{bmatrix}
\frac{g_{1}(\theta)}{\mu} && \frac{g_{1}(\theta)}{\sigma}
\end{bmatrix} = [0,2\sigma]$$
이 때, 이 MLE 추정량의 함수꼴의 피셔정보행렬은 다음과 같이 구할 수 있다.
$$I(\gamma) = [BI^{-1}(\theta)B^{T}]^{-1} \\ = [0, 2\sigma] \cdot \begin{bmatrix}
\frac{1}{2\sigma^{2}} && 0\\
0 && \frac{2}{\sigma^{2}}
\end{bmatrix}^{-1} \cdot [0, 2\sigma]^{T}]^{-1} = \frac{1}{2\sigma^{4}}$$
따라서, $I(\gamma) = \sigma^{2}$의 최저 하한은 $(2\sigma^{2}/n)$ 이다.
'수리통계' 카테고리의 다른 글
32. EM 알고리즘(with GMM) (2) | 2023.07.20 |
---|---|
31-1 다중 모수의 최대우도검정 (0) | 2023.07.19 |
31. 최대우도검정 (0) | 2023.07.17 |
30. 라오-크래머 한계와 효율성 (0) | 2023.07.14 |
29-1 다변량 중심극한정리 (0) | 2023.07.13 |