30. 라오-크래머 한계와 효율성

Notice

Recent Posts

Recent Comments

Link

« 2025/12 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

문과생 네버랜드의 데이터 창고

30. 라오-크래머 한계와 효율성 본문

수리통계

30. 라오-크래머 한계와 효율성

K JI 2023. 7. 14. 20:45

2025-07-18 수정 : 스코어 함수와 피셔 정보의 정의 수정, 피셔 정보의 예시를 정규분포를 들어 설명

라오-크래머 하한 부등식
1) 불편추정량의 질을 어떻게 측정할 것인가?
${(1)}$ 불편추정량을 다음과 같이 정의하였다.

이때, 통계량과 모수를 연결짓는 징검다리로서 불편추정량이란 개념이 등장한다.
${(1)}$ 불편추정량의 개념은 아래와 같다.
-. 모수 $\theta$를 갖는 $pdf(f; \theta)$를 가지는 확률변수 X를 정의하자.
-. 이 때, X에서 독립적으로 추출한(i.i.d) 확률표본 $[X_{1},X_{2}, ..., X_{n}]$를 정의하자.
-. 이 확률표본을 이용한 통계량 $T = T([X_{1},X_{2}, ..., X_{n}])$를 정의하자.
-. 이 때, 이 통계량의 기댓값 $E(T) = \theta$, 즉 그 기댓값이 모수와 같을경우 T를 $\theta$의 불편추정량 이라고 표현한다.

${(2)}$ 이러한 정의 하에 발생할 수 있는 문제는 다음과 같다.
-. 불편추정량이 여러개인 경우 : 정의상, 우리가 추정하려는 모수 $\theta$를 기댓값으로 갖는 모든 통계량이 불편추정량이 될 수 있다. 따라서, 불편추정량은 여러개 발견될 수 있다.

${(3)}$ 이러한 문제를 해결하기 위해, 한가지 조건을 더 붙여 유일한 불편추정량을 구할 수 있다.
-. 모수 $\theta$에 대하여 편차(bias)가 0인 불편추정량 중, 그 분산이 최소인 불편추정량을 가장 으뜸인 불편추정량으로 선정할 수 있다.
-. 위와 같이, 가장 분산이 작은 불편 추정량을 최소분산불편추정량(Minimum Variance unbiased Estimator, MVUE) 라고 지칭한다.

2) 피셔 정보
${(1)}$ 피셔 정보는 라오-크래머 부등식을 구성하는 핵심 측도이다.

${(2)}$ 도출된 형식을 이용한 피셔정보의 해석
-. 피셔 정보에 앞서 '스코어 함수'에 대해 먼저 짚고 넘어가야 한다
① 미분의 정의 : $\frac{\partial log f(x;\theta)}{\partial\theta}$, 즉 우도 함수에 대한 파라미터의 1계 미분을 '스코어 함수'라고 부른다. 이는 이 함수가 우도함수에서 $\theta$가 미소하게 변할 때 얼마나 큰 영향을 미치는지(=스코어) 확인할 수 있는 측도기 때문이다.
② 우도 함수 : 우도 함수는 관찰값(데이터)들이 주어졌을 때 어느 파라미터 $\theta$를 가진 분포에서 추출됐을 확률이 높은지를 측정하는 측도이다
③ ①과 ②의 사실을 결합하면 다음과 같은 사실을 도출 가능하다

- 스코어 함수는 파라미터 $\theta$가 매우 미소하게 변할 때, 파라미터가 데이터에 대하여 Fit할 정도(=우도)의 변화량을 나타낸다

한편, 스코어 함수 = 0의 극값은 우도함수가 최대화되는 지점을 의미한다. 다시 말해 MLE 추정치를 의미한다.

-. 피셔정보는 스코어 함수의 분산이다. 즉,

- 스코어 함수가 얼마나 변동 가능한지(=얼마나 불확실성을 갖는지)를 나타낸다
- 정보 이론(Information Theory)에서 불확실성은 곧 정보량과 같으며, 불확실성이 높을수록 정보량이 높다고 본다
- 스코어 함수는 파라미터가 데이터에 대해 Fit할 정도에 대한 변화량 이라고 했으므로, 이 변화량의 불확실성이 높을수록 데이터가 파라미터에 대해서 많은 정보를 가지고 있다고 해석할 수 있다.
- 다시 말해, 피셔 정보가 높을수록 데이터를 토대로 파라미터를 추정할 수 있을 가능성이 크다

${(3)}$ 피셔 정보의 유도
- 우선, 다음과 같은 정칙 조건을 만족한다고 가정해야한다.

① pdf는 모수 $\theta$가 구분되면 서로 명확히 구분된다. 즉, $\theta_{0} \neq \theta_{1}$ 이라면 $f(x;\theta_{0}) \neq f(x;\theta_{1})$ 이다.
② 확률변수의 집합 $[X_{i}]$는 그 pdf들의 받침(support)가 모수 $\theta$에 종속되지 않는다. 즉, pdf는 모든 $\theta$에 대하여 공통 받침을 갖는다.
③ $pdf f(x;\theta_{i})$는 모두 두 번 미분이 가능하다
④ pdf의 적분 $\int f(x;\theta) dx$는 $\theta$의 함수로 두번 미분이 가능하다.

두번 미분이 가능하다는 조건은, 피셔정보를 구할 때 이계 미분을 활용하기 때문이다.

확률변수 X의 pdf $f(x;\theta)$를 정의하자.

따라서 pdf의 성질에 따라
$1 = \int_{-\infty}^{\infty} f(x;\theta)dx$
는 성립한다.

이제, 이 식의 양변을 $\theta$에 대하여 미분한다. 그러면
$$ 0 = \int_{-\infty}^{\infty}(\partial f(x;\theta)/\partial\theta)dx \\
= \int_{-\infty}^{\infty}\frac{\partial f(x;\theta)/\partial\theta}{f(x;\theta)}\cdot f(x;\theta)dx$$

한편, 로그함수는 원함수의 순서가 그대로 보존되므로 다음과 같이 나타낼 수도 있다.
$$0 = \int_{-\infty}^{\infty}\partial log f(x;\theta)/\partial\theta\cdot f(x;\theta)dx$$
한편, 위 식은 가만히 살펴보면 다음과 같은 기댓값을 나타내는 식이란걸 알 수 있다.
$$0 = E\begin{bmatrix}
\frac{\partial log f(x;\theta)}{\partial\theta}
\end{bmatrix}$$

즉, $\frac{\partial log f(x;\theta)}{\partial\theta}$ 라는 확률변수에 대한 기댓값이고, 이는 곧 0이다.

위 식을 한번 더 미분(이계 미분)하면 다음과 같이 나타낼 수 있다.
$$0 =\int_{-\infty}^{\infty}\frac{1}{\partial \theta}[\partial log f(x;\theta)/\partial\theta\cdot f(x;\theta)]dx \\
= \int_{-\infty}^{\infty}\frac{\partial^{2} log f(x;\theta)}{\partial\theta^{2}}\cdot f(x;\theta)dx + \int_{-\infty}^{\infty}\frac{\partial log f(x;\theta)}{\partial\theta}\cdot \frac{\partial f(x;\theta)}{\partial \theta}dx \\
= \int_{-\infty}^{\infty}\frac{\partial^{2} log f(x;\theta)}{\partial\theta^{2}}\cdot f(x;\theta)dx + \int_{-\infty}^{\infty}\frac{\partial log f(x;\theta)}{\partial\theta}\cdot \frac{\partial log f(x;\theta)}{\partial \theta}f(x;\theta)dx$$

위 적분식은 두개의 항으로 구성되어 있고, 각각 다음의 기댓값의 선형결합으로 볼 수 있다.
$$E\begin{bmatrix}
\frac{\partial^{2} log f(x;\theta)}{\partial\theta^{2}}
\end{bmatrix} + E\begin{bmatrix}
(\frac{\partial log f(x;\theta)}{\partial \theta})^{2}
\end{bmatrix} = 0$$

이 때, 한쪽을 이항하면 등식관계로 만들 수 있다. 두번째 항을 좌변으로 이항하자
$$I(\theta) = E\begin{bmatrix}
\frac{\partial^{2} log f(x;\theta)}{\partial\theta^{2}}
\end{bmatrix} = -E\begin{bmatrix}
(\frac{\partial log f(x;\theta)}{\partial \theta})^{2}
\end{bmatrix}$$

이는 $\frac{\partial log f(x;\theta)}{\partial\theta}$라는 확률변수의 분산을 구하는것과 동일하다.

양쪽을 모두 동등하게 피셔 정보라 부른다.

${(4)}$ 피셔 정보의 활용 예시

-. 정규 분포의 피셔 정보
정규분포의 pdf는 다음과 같다
$p(x;\mu) = \frac{1}{\sqrt{2\pi\sigma^{2}}}exp(-\frac{(x-\mu)^{2}}{2\sigma^{2}})$

이 때 로그우도 함수는
$log p(x;\mu) = \frac{1}{2}log(2\pi\sigma^{2})-\frac{(x-\mu)^{2}}{2\sigma^{2}}$

스코어 함수를 구하면
$\frac{d}{d\mu}logp(x;\mu) = \frac{1}{\sigma^{2}}(x-\mu)$

피셔정보를 구하면
$Var(\frac{1}{\sigma^{2}}(x-\mu)) = \frac{1}{\sigma^{4}}Var(X-\mu)=\frac{1}{\sigma^{4}} \cdot \sigma^{2} = \frac{1}{\sigma^{2}}$

피셔 정보를 이용하여 다음의 사항을 유추할 수 있다
① 정규분포의 경우, 분산이 작으면(즉, 데이터가 조밀하게 모여있으면) 피셔정보가 커진다. 다시 말해 파라미터 $\mu$를 추정하기 쉬워진다
② 반대로, 분산이 커지면(즉, 데이터가 Sparse 하면) 피셔 정보가 작아진다. 다시 말해 파라미터 $\mu$를 추정하기 어려워진다

${(5)}$ 피셔정보의 선형결합
-. 피셔정보는 선형결합을 허용한다. 그것도 만약 n개의 확률변수의 선형결합이라면 단순히 $nI(\theta)$로 나타낼 수 있다.

크기 n인 확률표본 $[X_{1}, \dots X_{n}]$의 집합의 결합우도함수를 $L(\theta)$라고 정의하자.

이 때, 이 결합우도함수를 이용한 피셔정보는 다음과 같이 나타낼 수 있다.

$$\frac{\partial log L(\theta ; X)}{\partial \theta} = \frac{\partial}{\partial \theta}[f(X_{1};\theta)] + \frac{\partial}{\partial \theta}[f(X_{2};\theta)] + \dots + \frac{\partial}{\partial \theta}[f(X_{n};\theta)] = \sum_{i = 1}^{n} \frac{\partial}{\partial \theta}[f(X_{i};\theta)]$$

이 때, 정의한 이 확률변수의 제곱의 기댓값이 바로 피셔정보이다. 즉
$$ I(\theta) = E\begin{bmatrix}
(\sum_{i = 1}^{n}\frac{\partial}{\partial \theta}[f(X_{i};\theta)])^{2}
\end{bmatrix} $$

위 선형결합을 쭉 펼치면

$$\sum_{i = 1}^{n}E\begin{bmatrix}
(\frac{\partial}{\partial \theta}[f(X_{i};\theta)])^{2}
\end{bmatrix} = E\begin{bmatrix}
(\frac{\partial}{\partial \theta}[f(X_{1};\theta)])^{2}
\end{bmatrix} + E\begin{bmatrix}
(\frac{\partial}{\partial \theta}[f(X_{2};\theta)])^{2}
\end{bmatrix} + \dots + E\begin{bmatrix}
(\frac{\partial}{\partial \theta}[f(X_{n};\theta)])^{2}
\end{bmatrix}$$

한편, 위 확률표본들은 동일한 확률변수 X에서 추출된 표본들이므로,
그 기댓값을 구하는것은 X에 대한 기댓값을 구하는것과 동치이다. 따라서

$$\sum_{i = 1}^{n}E\begin{bmatrix}
(\frac{\partial}{\partial \theta}[f(X_{i};\theta)])^{2}
\end{bmatrix} \rightarrow \sum_{i = 1}^{n}E\begin{bmatrix}
(\frac{\partial}{\partial \theta}[f(X;\theta)])^{2}
\end{bmatrix} = nI(\theta)$$

이 결과로 피셔정보의 선형결합은 그 정보량을 n배 증가시키는것을 증명하였다.

3) 라오-크레머 하한 부등식

${(1)}$ 라오-크레머 하한은 모수 $\theta$에 대하여 그 불편추정량이 가질 수 있는 가장 작은 분산 추정량을 제시한다.
-. 다시 말해, 우리가 구한 불편추정량이 이 가장 작은 분산 추정량( = 라오-크래머 하한)을 가지면 그것이 그 파라미터를 추정하는 불편추정량이 가질 수 있는 최소값이며, 따라서 모든 불편추정량 중 으뜸인 MVUE으로 간주할 수 있다.

${(2)}$ 라오 - 크래머 하한 부등식은 피셔 정보를 활용한다. 다음과 같이 유도할 수 있다.

확률변수 X에서 추출한 확률표본 집합 $[X_{1}, \dots X_{n}]$을 i.i.d라고 가정하자.

다음의 통계량을 가정하자
$Y = u(X_{1}, \dots X_{n})$
이 때, 이 통계량의 기댓값을 다음과 같이 정의하자
$E(Y) = E[u(X_{1}, \dots X_{n})] = k(\theta)$

이 기댓값을 적분식으로 표현하면 아래와 같다.

$$\int_{-\infty}^{\infty} \dots \int_{-\infty}^{\infty} u(x_{1}, \dots x_{n})f(x_{1};\theta) \dots f(x_{n};\theta)dx_{1} \dots dx_{n}$$

이 식을 $\theta$에 대하여 미분하면, 미분의 연산법 중 곱셈연산과
피셔정보를 유도할 때 $f(X:\theta)$로 나눠주고 곱해 형태를 만들었던 전례에 따라
$$k'(\theta) \\ = \int_{-\infty}^{\infty} \dots\int_{-\infty}^{\infty} \frac{\partial}{\partial \theta} [u(x_{1}, \dots x_{n})f(x_{1};\theta) \dots f(x_{n};\theta)]dx_{1} \dots dx_{n} \\
= \int_{-\infty}^{\infty} \dots\int_{-\infty}^{\infty} u(x_{1}, \dots x_{n})\sum_{i=1}^{n}[\frac{1}{f(x_{i};\theta)} \cdot \frac{\partial f(x;\theta)}{\partial \theta}]\cdot \prod_{i=1}^{n}f(x_{i};\theta)dx_{1} \dots dx_{n} \\
= \int_{-\infty}^{\infty} \dots\int_{-\infty}^{\infty} u(x_{1}, \dots x_{n})\sum_{i=1}^{n}[\frac{\partial log f(x;\theta)}{\partial \theta}]\cdot \prod_{i=1}^{n}f(x_{i};\theta)dx_{1} \dots dx_{n} \dots ①$$

한편, 다음의 다변량 확률변수를 정의하자
$Z = \frac{\partial log f(x;\theta)}{\partial \theta}$

피셔정보를 유도하면서 다음의 사실을 알게되었다.
$E(Z) = 0$ 이고 $Var(Z) = nI(\theta)$

또한, Y와 Z를 이용하면 ①을 $E(YZ)$로 취급할 수 있다. 따라서
$$k'(\theta) = E(YZ) = E(Y)E(Z) + \rho \sigma_{Y}\sqrt{nI(\theta)}$$
이 때, \rho는 Y와 Z의 상관계수를 의미하고 뒤의 항은 공분산과 상관계수의 관계를 따왔다.

$E(Z) = 0$이라는 사실을 이용하면
$$k'(\theta) = \rho \sigma_{Y}\sqrt{nI(\theta)}$$
우변에 상관계수 $\rho$만 남기고 식을 정리하면
$$\frac{k'(\theta)^{2}}{\sigma_{Y}^{2}nI(\theta)} = \rho^{2}$$
한편, $\rho^{2}$은 상관계수의 정의에 따라 1 이하인 수이다. 따라서 부등식 형식으로 이를 고치면
$$\frac{k'(\theta)^{2}}{\sigma_{Y}^{2}nI(\theta)} \leq 1$$
분모의 $\sigma_{Y}^{2}$, 즉 Y의 분산을 우변으로 이항하면
$$\frac{k'(\theta)^{2}}{nI(\theta)} \leq \sigma_{Y}^{2}$$
이고, 이것이 바로 라오-크레머 하한 부등식이다.

정식 라오-크레머 하한 부등식에서 한걸음 더 나아가보자.

$Y = u(X_{1}, \dots, X_{n})$ 에서, Y를 $\theta$에 대한 불편추정량이라고 한다면

$E(Y) = k(\theta) = \theta$이다.

$\theta$에 대하여 $\theta$로 1계 미분해주면 그 값은 1과 같다.
따라서 라오-크레머 부등식은 다음과 같이 간단화될 수 있다.

$$Var(Y) \geq \frac{1}{nI(\theta)}$$

효율성
1) 효율성과 효율추정량
${(1)}$ 이제, 라오-크레머 부등식을 구했으니 불편추정량이 얼마나 으뜸 추정량인지 구할 수 있다.

${(2)}$ 그 정도를 구하는데 다음의 두가지 개념이 등장한다.

-. 효율 추정량
불편추정량 후보 Y를 확률표본 $[X_{1}, \dots, X_{n}]$을 이용해 만든 통계량이라고 하자.
이 때, Y의 분산이 라오-크레머 부등식의 하한인 경우에 이 통계량을 효율추정량이라고 한다.

-. 효율성
모수에 대하여 구한 라오-크레머 하한과 추정량의 실제 분산의 비율을 효율성이라고 한다.
효율성 함수를 e라고 정의할 때, 아래와 같은 측도로 측정이 가능하다

2) 근사적 효율성
${(1)}$효율성과 효율추정량은 좋은 정의지만, 지나치게 엄격하기도 하다.

-. 어떤 불편추정량들은 샘플의 수가 많아질수록 점차 라오크래머 하한에 점근적으로 가까워지기도 한다.

-. 이를 반영하여, 점근적으로 라오크레머 하한에 도달하는 경우 이를 근사적으로 효율적이다라고 표현하고, 이 정도를 측정하기 위한 측도가 근사적 효율성이다.

${(2)}$ 근사적 효율성의 유도
-. n이 커질수록 점근적으로 분산이 라오-크레머 하한에 다가가는 근사적 효율성은 아래와 같이 정의 가능하다.

$[X_{1}, \dots X_{n}]$을 pdf $f(x;\theta_{0})$를 가지는 확률변수 X에서 추출한 확률표본이라 하자

이 확률표본을 이용하여 다음의 불편추정량인 통계량을 정의하자

$$\widehat{\theta}_{0} = \widehat{\theta}_{0}(X_{1}, \dots, X_{n})$$
이 통계량이 다음을 만족한다고 하자
$$\sqrt{n}(\widehat{\theta}_{0} - \theta_{0}) \overset{D}{\rightarrow} N(0, \sigma_{\widehat{\theta_{0}}}^{2})$$
즉, 통계량 $\widehat{\theta}_{0}$의 분산을 가지는 정규분포로 분포수렴한다.

이 때, 근사적 효율성 함수를 e라고 할 때, 아래와 같이 정의한다.

$$e(\widehat{\theta_{0}}) = \frac{1/I(\theta_{0})}{\widehat{\theta}_{0}}$$

이 비율이 1에 가까울수록, 통계량 $\widehat{\theta_{0}}$는 근사적으료 효율적이라고 한다.

이 때, 마찬가지로 $\theta_{0}$에 대한 불편추정량인 다음의 통계량을 정의하자
$$\widehat{\theta}_{1} =\widehat{\theta}_{1}(X_{1}, \dots, X_{n})$$

이 때, 두 추정량의 근사 효율성의 비율, 즉 근사적 상대 효율성은 다음과 같이 정의할 수 있다.

$$e(\widehat{\theta_{0}}, \widehat{\theta_{1}}) =\frac{1/I(\theta) / \widehat{\theta_{0}}}{1/I(\theta) /\widehat{\theta_{1}}} = \frac{\widehat{\theta_{1}}}{\widehat{\theta_{0}}}$$

만약, $\widehat{\theta_{0}}$가 $\widehat{\theta_{1}}$ 보다 더 양질의 추정량일경우,
근사적 상대 효율성은 1을 넘을 것이다.

${(3)}$ 최대우도추정량은 보통 근사적으로 효율적이다.

-. 한편, 최대우도추정량의 경우는 아래의 중심극한정리를 만족한다.

$[X_{1}, \dots, X_{n}]$을 $\theta_{0}$를 pdf $f(X;\theta_{0})$라는 pdf를 가지는 확률변수 X에서 추출한 확률표본이라 하자.

$\theta_{0}$의 최대우도추정량을 $\widehat{\theta}$라고 할 때 다음은 참이다.

$$\sqrt{n}(\widehat{\theta} - \theta_{0}) \overset{D}{\rightarrow} N(0, \frac{1}{I(\theta_{0})})$$

증명은 Hogg et.al(2013)을 참조

-. 위 정리에 따라, 최대우도추정량은 그 분산 자체가 이미 라오-크러머 하한인 $\frac{1}{I(\theta_{0})}$을 가진다.

-. 따라서, 어떤 추정량을 가져오던간에 항상 근사적으로 상대 효율적이다.

참조문헌
1) Hogg et.al, “Introduction to mathematical statistics, 7th edition”,Pearson Education.Inc(2013), p.362

'수리통계' 카테고리의 다른 글

19-1 다변량 함수에서의 최대우도추정 (0)	2023.07.18
31. 최대우도검정 (0)	2023.07.17
29-1 다변량 중심극한정리 (0)	2023.07.13
29. 중심극한정리 (2)	2023.07.12
28. 분포수렴 (1)	2023.07.11

'수리통계' Related Articles

문과생 네버랜드의 데이터 창고

30. 라오-크래머 한계와 효율성 본문

30. 라오-크래머 한계와 효율성

'수리통계' 카테고리의 다른 글

티스토리툴바