문과생 네버랜드의 데이터 창고

30. 라오-크래머 한계와 효율성 본문

수리통계

30. 라오-크래머 한계와 효율성

K JI 2023. 7. 14. 20:45
  1. 라오-크래머 하한 부등식
    1) 불편추정량의 질을 어떻게 측정할 것인가?
    ${(1)}$ 불편추정량을 다음과 같이 정의하였다.
    이때, 통계량과 모수를 연결짓는 징검다리로서 불편추정량이란 개념이 등장한다.
    ${(1)}$ 불편추정량의 개념은 아래와 같다.
    -. 모수 $\theta$를 갖는 $pdf(f; \theta)$를 가지는 확률변수 X를 정의하자.
    -. 이 때, X에서 독립적으로 추출한(i.i.d) 확률표본 $[X_{1},X_{2}, ..., X_{n}]$를 정의하자.
    -. 이 확률표본을 이용한 통계량 $T = T([X_{1},X_{2}, ..., X_{n}])$를 정의하자.
    -. 이 때, 이 통계량의 기댓값 $E(T) = \theta$, 즉 그 기댓값이 모수와 같을경우 T를 $\theta$의 불편추정량 이라고 표현한다.   
    ${(2)}$ 이러한 정의 하에 발생할 수 있는 문제는 다음과 같다.
    -. 불편추정량이 여러개인 경우 : 정의상, 우리가 추정하려는 모수 $\theta$를 기댓값으로 갖는 모든 통계량이 불편추정량이 될 수 있다. 따라서, 불편추정량은 여러개 발견될 수 있다.

    ${(3)}$ 이러한 문제를 해결하기 위해, 한가지 조건을 더 붙여 유일한 불편추정량을 구할 수 있다.
    -. 모수 $\theta$에 대하여 편차(bias)가 0인 불편추정량 중, 그 분산이 최소인 불편추정량을 가장 으뜸인 불편추정량으로 선정할 수 있다.
    -. 위와 같이, 가장 분산이 작은 불편 추정량을 최소분산불편추정량(Minimum Variance unbiased Estimator, MVUE) 라고 지칭한다.

    2) 피셔 정보
    ${(1)}$ 피셔 정보는 라오-크래머 부등식을 구성하는 핵심 측도이다.

    ${(2)}$ 우선, 다음과 같은 정칙 조건을 만족한다고 가정해야한다.
    ① pdf는 모수 $\theta$가 구분되면 서로 명확히 구분된다. 즉, $\theta_{0} \neq \theta_{1}$ 이라면 $f(x;\theta_{0}) \neq f(x;\theta_{1})$ 이다.
    ② 확률변수의 집합 $[X_{i}]$는 그 pdf들의 받침(support)가 모수 $\theta$에 종속되지 않는다. 즉, pdf는 모든 $\theta$에 대하여 공통 받침을 갖는다.
    ③ $pdf f(x;\theta_{i})$는 모두 두 번 미분이 가능하다
    ④ pdf의 적분 $\int f(x;\theta) dx$는 $\theta$의 함수로 두번 미분이 가능하다.

    두번 미분이 가능하다는 조건은, 피셔정보를 구할 때 이계 미분을 활용하기 때문이다.
    ${(3)}$ 피셔 정보의 유도
    확률변수 X의 pdf $f(x;\theta)$를 정의하자.

    따라서 pdf의 성질에 따라
    $1 = \int_{-\infty}^{\infty} f(x;\theta)dx$
    는 성립한다.

    이제, 이 식의 양변을 $\theta$에 대하여 미분한다. 그러면
    $$ 0 = \int_{-\infty}^{\infty}(\partial f(x;\theta)/\partial\theta)dx \\
    = \int_{-\infty}^{\infty}\frac{\partial f(x;\theta)/\partial\theta}{f(x;\theta)}\cdot f(x;\theta)dx$$ 

    한편, 로그함수는 원함수의 순서가 그대로 보존되므로 다음과 같이 나타낼 수도 있다.
    $$0 = \int_{-\infty}^{\infty}\partial log f(x;\theta)/\partial\theta\cdot f(x;\theta)dx$$
    한편, 위 식은 가만히 살펴보면 다음과 같은 기댓값을 나타내는 식이란걸 알 수 있다.
    $$0 = E\begin{bmatrix}
    \frac{\partial log f(x;\theta)}{\partial\theta}
    \end{bmatrix}$$

    즉, $\frac{\partial log f(x;\theta)}{\partial\theta}$ 라는 확률변수에 대한 기댓값이고, 이는 곧 0이다. 

    위 식을 한번 더 미분(이계 미분)하면 다음과 같이 나타낼 수 있다. 
    $$0 =\int_{-\infty}^{\infty}\frac{1}{\partial \theta}[\partial log f(x;\theta)/\partial\theta\cdot f(x;\theta)]dx \\
    = \int_{-\infty}^{\infty}\frac{\partial^{2} log f(x;\theta)}{\partial\theta^{2}}\cdot f(x;\theta)dx + \int_{-\infty}^{\infty}\frac{\partial log f(x;\theta)}{\partial\theta}\cdot \frac{\partial f(x;\theta)}{\partial \theta}dx \\
    = \int_{-\infty}^{\infty}\frac{\partial^{2} log f(x;\theta)}{\partial\theta^{2}}\cdot f(x;\theta)dx + \int_{-\infty}^{\infty}\frac{\partial log f(x;\theta)}{\partial\theta}\cdot \frac{\partial log f(x;\theta)}{\partial \theta}f(x;\theta)dx$$

    위 적분식은 두개의 항으로 구성되어 있고, 각각 다음의 기댓값의 선형결합으로 볼 수 있다.
    $$E\begin{bmatrix}
    \frac{\partial^{2} log f(x;\theta)}{\partial\theta^{2}}
    \end{bmatrix} + E\begin{bmatrix}
    (\frac{\partial log f(x;\theta)}{\partial \theta})^{2}
    \end{bmatrix} = 0$$

    이 때, 한쪽을 이항하면 등식관계로 만들 수 있다. 두번째 항을 좌변으로 이항하자
    $$I(\theta) = E\begin{bmatrix}
    \frac{\partial^{2} log f(x;\theta)}{\partial\theta^{2}}
    \end{bmatrix} = -E\begin{bmatrix}
    (\frac{\partial log f(x;\theta)}{\partial \theta})^{2}
    \end{bmatrix}$$

    이는 $\frac{\partial log f(x;\theta)}{\partial\theta}$라는 확률변수의 분산을 구하는것과 동일하다.

    양쪽을 모두 동등하게 피셔 정보라 부른다.
    ${(4)}$ 도출된 형식을 이용한 피셔정보의 해석
    -. 한편, $\frac{\partial log f(x;\theta)}{\partial\theta}$는 '스코어 함수'라고 부른다. 이는 이 함수가 분포의 pdf에서 $\theta$가 미소하게 변할 때 얼마나 큰 영향을 미치는지(=스코어) 확인할 수 있는 측도기 때문이다. 이 값이 크다는것은, 그만큼 $\theta$가 해당 분포에 대하여 많은 정보를 함축하고 있음을 의미한다.

    -. 피셔정보는, 이 스코어 함수의 분산을 구하는 것이다. 즉, 정보가 얼마나 변화할 수 있는지를 표현하는 측도이다.

    ${(5)}$ 피셔정보의 선형결합
    -. 피셔정보는 선형결합을 허용한다. 그것도 만약 n개의 확률변수의 선형결합이라면 단순히 $nI(\theta)$로 나타낼 수 있다.
    크기 n인 확률표본 $[X_{1}, \dots X_{n}]$의 집합의 결합우도함수를 $L(\theta)$라고 정의하자.

    이 때, 이 결합우도함수를 이용한 피셔정보는 다음과 같이 나타낼 수 있다.

    $$\frac{\partial log L(\theta ; X)}{\partial \theta} = \frac{\partial}{\partial \theta}[f(X_{1};\theta)] + \frac{\partial}{\partial \theta}[f(X_{2};\theta)] + \dots + \frac{\partial}{\partial \theta}[f(X_{n};\theta)] = \sum_{i = 1}^{n} \frac{\partial}{\partial \theta}[f(X_{i};\theta)]$$

    이 때, 정의한 이 확률변수의 제곱의 기댓값이 바로 피셔정보이다. 즉
    $$ I(\theta) = E\begin{bmatrix}
    (\sum_{i = 1}^{n}\frac{\partial}{\partial \theta}[f(X_{i};\theta)])^{2}
    \end{bmatrix} $$

    위 선형결합을 쭉 펼치면

    $$\sum_{i = 1}^{n}E\begin{bmatrix}
    (\frac{\partial}{\partial \theta}[f(X_{i};\theta)])^{2}
    \end{bmatrix} = E\begin{bmatrix}
    (\frac{\partial}{\partial \theta}[f(X_{1};\theta)])^{2}
    \end{bmatrix} + E\begin{bmatrix}
    (\frac{\partial}{\partial \theta}[f(X_{2};\theta)])^{2}
    \end{bmatrix} + \dots + E\begin{bmatrix}
    (\frac{\partial}{\partial \theta}[f(X_{n};\theta)])^{2}
    \end{bmatrix}$$

     한편, 위 확률표본들은 동일한 확률변수 X에서 추출된 표본들이므로,
    그 기댓값을 구하는것은 X에 대한 기댓값을 구하는것과 동치이다. 따라서 

    $$\sum_{i = 1}^{n}E\begin{bmatrix}
    (\frac{\partial}{\partial \theta}[f(X_{i};\theta)])^{2}
    \end{bmatrix} \rightarrow \sum_{i = 1}^{n}E\begin{bmatrix}
    (\frac{\partial}{\partial \theta}[f(X;\theta)])^{2}
    \end{bmatrix} = nI(\theta)$$

    이 결과로 피셔정보의 선형결합은 그 정보량을 n배 증가시키는것을 증명하였다.

    3) 라오-크레머 하한 부등식

    ${(1)}$ 라오-크레머 하한은 모수 $\theta$에 대하여 그 불편추정량이 가질 수 있는 가장 작은 분산 추정량을 제시한다.
    -. 다시 말해, 우리가 구한 불편추정량이 이 가장 작은 분산 추정량( = 라오-크래머 하한)을 가지면 그것이 그 파라미터를 추정하는 불편추정량이 가질 수 있는 최소값이며, 따라서 모든 불편추정량 중 으뜸인 MVUE으로 간주할 수 있다.

    ${(2)}$ 라오 - 크래머 하한 부등식은 피셔 정보를 활용한다. 다음과 같이 유도할 수 있다.

    확률변수 X에서 추출한 확률표본 집합 $[X_{1}, \dots X_{n}]$을 i.i.d라고 가정하자.

    다음의 통계량을 가정하자
    $Y = u(X_{1}, \dots X_{n})$
    이 때, 이 통계량의 기댓값을 다음과 같이 정의하자
    $E(Y) = E[u(X_{1}, \dots X_{n})] = k(\theta)$

    이 기댓값을 적분식으로 표현하면 아래와 같다.

    $$\int_{-\infty}^{\infty} \dots \int_{-\infty}^{\infty} u(x_{1}, \dots x_{n})f(x_{1};\theta) \dots f(x_{n};\theta)dx_{1} \dots dx_{n}$$

    이 식을 $\theta$에 대하여 미분하면, 미분의 연산법 중 곱셈연산과 
    피셔정보를 유도할 때 $f(X:\theta)$로 나눠주고 곱해 형태를 만들었던 전례에 따라
    $$k'(\theta) \\ = \int_{-\infty}^{\infty} \dots\int_{-\infty}^{\infty} \frac{\partial}{\partial \theta} [u(x_{1}, \dots x_{n})f(x_{1};\theta) \dots f(x_{n};\theta)]dx_{1} \dots dx_{n} \\
    = \int_{-\infty}^{\infty} \dots\int_{-\infty}^{\infty} u(x_{1}, \dots x_{n})\sum_{i=1}^{n}[\frac{1}{f(x_{i};\theta)} \cdot \frac{\partial f(x;\theta)}{\partial \theta}]\cdot \prod_{i=1}^{n}f(x_{i};\theta)dx_{1} \dots dx_{n} \\
    = \int_{-\infty}^{\infty} \dots\int_{-\infty}^{\infty} u(x_{1}, \dots x_{n})\sum_{i=1}^{n}[\frac{\partial log f(x;\theta)}{\partial \theta}]\cdot \prod_{i=1}^{n}f(x_{i};\theta)dx_{1} \dots dx_{n} \dots ①$$

    한편, 다음의 다변량 확률변수를 정의하자
    $Z = \frac{\partial log f(x;\theta)}{\partial \theta}$

     피셔정보를 유도하면서 다음의 사실을 알게되었다.
    $E(Z) = 0$ 이고 $Var(Z) = nI(\theta)$

    또한, Y와 Z를 이용하면 ①을 $E(YZ)$로 취급할 수 있다. 따라서
    $$k'(\theta) = E(YZ) = E(Y)E(Z) + \rho \sigma_{Y}\sqrt{nI(\theta)}$$
    이 때, \rho는 Y와 Z의 상관계수를 의미하고 뒤의 항은 공분산과 상관계수의 관계를 따왔다.

    $E(Z) = 0$이라는 사실을 이용하면 
    $$k'(\theta) = \rho \sigma_{Y}\sqrt{nI(\theta)}$$ 
    우변에 상관계수 $\rho$만 남기고 식을 정리하면
    $$\frac{k'(\theta)^{2}}{\sigma_{Y}^{2}nI(\theta)} = \rho^{2}$$
    한편, $\rho^{2}$은 상관계수의 정의에 따라 1 이하인 수이다. 따라서 부등식 형식으로 이를 고치면
    $$\frac{k'(\theta)^{2}}{\sigma_{Y}^{2}nI(\theta)} \leq 1$$
    분모의 $\sigma_{Y}^{2}$, 즉 Y의 분산을 우변으로 이항하면
    $$\frac{k'(\theta)^{2}}{nI(\theta)} \leq \sigma_{Y}^{2}$$
    이고, 이것이 바로 라오-크레머 하한 부등식이다.

    정식 라오-크레머 하한 부등식에서 한걸음 더 나아가보자.

    $Y = u(X_{1}, \dots, X_{n})$ 에서, Y를 $\theta$에 대한 불편추정량이라고 한다면

    $E(Y) = k(\theta) = \theta$이다.

    $\theta$에 대하여 $\theta$로 1계 미분해주면 그 값은 1과 같다.
    따라서 라오-크레머 부등식은 다음과 같이 간단화될 수 있다.

    $$Var(Y) \geq \frac{1}{nI(\theta)}$$ 
  2. 효율성
    1) 효율성과 효율추정량
    ${(1)}$ 이제, 라오-크레머 부등식을 구했으니 불편추정량이 얼마나 으뜸 추정량인지 구할 수 있다.

    ${(2)}$ 그 정도를 구하는데 다음의 두가지 개념이 등장한다.
    -. 효율 추정량
    불편추정량 후보 Y를 확률표본 $[X_{1}, \dots, X_{n}]$을 이용해 만든 통계량이라고 하자.
    이 때, Y의 분산이 라오-크레머 부등식의 하한인 경우에 이 통계량을 효율추정량이라고 한다. 
    -. 효율성
    모수에 대하여 구한 라오-크레머 하한과 추정량의 실제 분산의 비율을 효율성이라고 한다.
    효율성 함수를 e라고 정의할 때, 아래와 같은 측도로 측정이 가능하다
    2) 근사적 효율성
    ${(1)}$효율성과 효율추정량은 좋은 정의지만, 지나치게 엄격하기도 하다.

    -. 어떤 불편추정량들은 샘플의 수가 많아질수록 점차 라오크래머 하한에 점근적으로 가까워지기도 한다.

    -. 이를 반영하여, 점근적으로 라오크레머 하한에 도달하는 경우 이를 근사적으로 효율적이다라고 표현하고, 이 정도를 측정하기 위한 측도가 근사적 효율성이다.

    ${(2)}$ 근사적 효율성의 유도
    -. n이 커질수록 점근적으로 분산이 라오-크레머 하한에 다가가는 근사적 효율성은 아래와 같이 정의 가능하다.
    $[X_{1}, \dots X_{n}]$을 pdf $f(x;\theta_{0})$를 가지는 확률변수 X에서 추출한 확률표본이라 하자

    이 확률표본을 이용하여 다음의 불편추정량인 통계량을 정의하자

    $$\widehat{\theta}_{0} = \widehat{\theta}_{0}(X_{1}, \dots, X_{n})$$
    이 통계량이 다음을 만족한다고 하자
    $$\sqrt{n}(\widehat{\theta}_{0} - \theta_{0}) \overset{D}{\rightarrow} N(0, \sigma_{\widehat{\theta_{0}}}^{2})$$
    즉, 통계량 $\widehat{\theta}_{0}$의 분산을 가지는 정규분포로 분포수렴한다.
    이 때, 근사적 효율성 함수를 e라고 할 때, 아래와 같이 정의한다.

    $$e(\widehat{\theta_{0}}) = \frac{1/I(\theta_{0})}{\widehat{\theta}_{0}}$$

    이 비율이 1에 가까울수록, 통계량 $\widehat{\theta_{0}}$는 근사적으료 효율적이라고 한다.
    이 때, 마찬가지로 $\theta_{0}$에 대한 불편추정량인 다음의 통계량을 정의하자
    $$\widehat{\theta}_{1} =\widehat{\theta}_{1}(X_{1}, \dots, X_{n})$$

    이 때, 두 추정량의 근사 효율성의 비율, 즉 근사적 상대 효율성은 다음과 같이 정의할 수 있다.

    $$e(\widehat{\theta_{0}}, \widehat{\theta_{1}}) =\frac{1/I(\theta) / \widehat{\theta_{0}}}{1/I(\theta) /\widehat{\theta_{1}}} = \frac{\widehat{\theta_{1}}}{\widehat{\theta_{0}}}$$

    만약, $\widehat{\theta_{0}}$가 $\widehat{\theta_{1}}$ 보다 더 양질의 추정량일경우,
    근사적 상대 효율성은 1을 넘을 것이다.
    ${(3)}$ 최대우도추정량은 보통 근사적으로 효율적이다.

    -. 한편, 최대우도추정량의 경우는 아래의 중심극한정리를 만족한다.
    $[X_{1}, \dots, X_{n}]$을 $\theta_{0}$를 pdf $f(X;\theta_{0})$라는 pdf를 가지는 확률변수 X에서 추출한 확률표본이라 하자.

    $\theta_{0}$의 최대우도추정량을 $\widehat{\theta}$라고 할 때 다음은 참이다.

    $$\sqrt{n}(\widehat{\theta} - \theta_{0}) \overset{D}{\rightarrow} N(0, \frac{1}{I(\theta_{0})})$$

    증명은 Hogg et.al(2013)을 참조
    -. 위 정리에 따라, 최대우도추정량은 그 분산 자체가 이미 라오-크러머 하한인 $\frac{1}{I(\theta_{0})}$을 가진다.

    -. 따라서, 어떤 추정량을 가져오던간에 항상 근사적으로 상대 효율적이다. 

  3. 참조문헌
    1) Hogg et.al, “Introduction to mathematical statistics, 7th edition”,Pearson Education.Inc(2013), p.362

'수리통계' 카테고리의 다른 글

19-1 다변량 함수에서의 최대우도추정  (0) 2023.07.18
31. 최대우도검정  (0) 2023.07.17
29-1 다변량 중심극한정리  (0) 2023.07.13
29. 중심극한정리  (2) 2023.07.12
28. 분포수렴  (1) 2023.07.11