Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 프로그래머를 위한 선형대수 #선형대수 #행렬계산
- bayesian inference
- Marketing Mix Modeling
- 프로그래머를 위한 선형대수 #선형대수 #LU분해
- Optimization
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #고유분해
- lightweightmmm
- bayesian
- Media Mix Modeling
- 미적분 #평균값 정리 #로피탈의 정리 #접선의 방정식
- 미적분 #접선의 방정식 #최적화 #뉴턴법 #뉴턴-랩슨법
- 미적분
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #야코비 회전법 #QR법 #하우스홀더반사 #행렬회전
- mmm
- 미적분 #사인과 코사인의 도함수
- 시계열분석 #Time-Series Analysis #이상탐지 #Anomaly Detection #Spectral Residual #CNN #SR-CNN
- 프로그래머를 위한 선형대수 #선형대수 #고유분해 #고윳값 #고유벡터
- 수리통계
Archives
- Today
- Total
문과생 네버랜드의 데이터 창고
30. 라오-크래머 한계와 효율성 본문
-
라오-크래머 하한 부등식
1) 불편추정량의 질을 어떻게 측정할 것인가?
${(1)}$ 불편추정량을 다음과 같이 정의하였다.이때, 통계량과 모수를 연결짓는 징검다리로서 불편추정량이란 개념이 등장한다.
${(1)}$ 불편추정량의 개념은 아래와 같다.
-. 모수 $\theta$를 갖는 $pdf(f; \theta)$를 가지는 확률변수 X를 정의하자.
-. 이 때, X에서 독립적으로 추출한(i.i.d) 확률표본 $[X_{1},X_{2}, ..., X_{n}]$를 정의하자.
-. 이 확률표본을 이용한 통계량 $T = T([X_{1},X_{2}, ..., X_{n}])$를 정의하자.
-. 이 때, 이 통계량의 기댓값 $E(T) = \theta$, 즉 그 기댓값이 모수와 같을경우 T를 $\theta$의 불편추정량 이라고 표현한다.
-. 불편추정량이 여러개인 경우 : 정의상, 우리가 추정하려는 모수 $\theta$를 기댓값으로 갖는 모든 통계량이 불편추정량이 될 수 있다. 따라서, 불편추정량은 여러개 발견될 수 있다.
${(3)}$ 이러한 문제를 해결하기 위해, 한가지 조건을 더 붙여 유일한 불편추정량을 구할 수 있다.
-. 모수 $\theta$에 대하여 편차(bias)가 0인 불편추정량 중, 그 분산이 최소인 불편추정량을 가장 으뜸인 불편추정량으로 선정할 수 있다.
-. 위와 같이, 가장 분산이 작은 불편 추정량을 최소분산불편추정량(Minimum Variance unbiased Estimator, MVUE) 라고 지칭한다.
2) 피셔 정보
${(1)}$ 피셔 정보는 라오-크래머 부등식을 구성하는 핵심 측도이다.
${(2)}$ 우선, 다음과 같은 정칙 조건을 만족한다고 가정해야한다.
① pdf는 모수 $\theta$가 구분되면 서로 명확히 구분된다. 즉, $\theta_{0} \neq \theta_{1}$ 이라면 $f(x;\theta_{0}) \neq f(x;\theta_{1})$ 이다.
② 확률변수의 집합 $[X_{i}]$는 그 pdf들의 받침(support)가 모수 $\theta$에 종속되지 않는다. 즉, pdf는 모든 $\theta$에 대하여 공통 받침을 갖는다.
③ $pdf f(x;\theta_{i})$는 모두 두 번 미분이 가능하다
④ pdf의 적분 $\int f(x;\theta) dx$는 $\theta$의 함수로 두번 미분이 가능하다.
두번 미분이 가능하다는 조건은, 피셔정보를 구할 때 이계 미분을 활용하기 때문이다.확률변수 X의 pdf $f(x;\theta)$를 정의하자.
따라서 pdf의 성질에 따라
$1 = \int_{-\infty}^{\infty} f(x;\theta)dx$
는 성립한다.
이제, 이 식의 양변을 $\theta$에 대하여 미분한다. 그러면
$$ 0 = \int_{-\infty}^{\infty}(\partial f(x;\theta)/\partial\theta)dx \\
= \int_{-\infty}^{\infty}\frac{\partial f(x;\theta)/\partial\theta}{f(x;\theta)}\cdot f(x;\theta)dx$$
한편, 로그함수는 원함수의 순서가 그대로 보존되므로 다음과 같이 나타낼 수도 있다.
$$0 = \int_{-\infty}^{\infty}\partial log f(x;\theta)/\partial\theta\cdot f(x;\theta)dx$$
한편, 위 식은 가만히 살펴보면 다음과 같은 기댓값을 나타내는 식이란걸 알 수 있다.
$$0 = E\begin{bmatrix}
\frac{\partial log f(x;\theta)}{\partial\theta}
\end{bmatrix}$$
즉, $\frac{\partial log f(x;\theta)}{\partial\theta}$ 라는 확률변수에 대한 기댓값이고, 이는 곧 0이다.
위 식을 한번 더 미분(이계 미분)하면 다음과 같이 나타낼 수 있다.
$$0 =\int_{-\infty}^{\infty}\frac{1}{\partial \theta}[\partial log f(x;\theta)/\partial\theta\cdot f(x;\theta)]dx \\
= \int_{-\infty}^{\infty}\frac{\partial^{2} log f(x;\theta)}{\partial\theta^{2}}\cdot f(x;\theta)dx + \int_{-\infty}^{\infty}\frac{\partial log f(x;\theta)}{\partial\theta}\cdot \frac{\partial f(x;\theta)}{\partial \theta}dx \\
= \int_{-\infty}^{\infty}\frac{\partial^{2} log f(x;\theta)}{\partial\theta^{2}}\cdot f(x;\theta)dx + \int_{-\infty}^{\infty}\frac{\partial log f(x;\theta)}{\partial\theta}\cdot \frac{\partial log f(x;\theta)}{\partial \theta}f(x;\theta)dx$$
위 적분식은 두개의 항으로 구성되어 있고, 각각 다음의 기댓값의 선형결합으로 볼 수 있다.
$$E\begin{bmatrix}
\frac{\partial^{2} log f(x;\theta)}{\partial\theta^{2}}
\end{bmatrix} + E\begin{bmatrix}
(\frac{\partial log f(x;\theta)}{\partial \theta})^{2}
\end{bmatrix} = 0$$
이 때, 한쪽을 이항하면 등식관계로 만들 수 있다. 두번째 항을 좌변으로 이항하자
$$I(\theta) = E\begin{bmatrix}
\frac{\partial^{2} log f(x;\theta)}{\partial\theta^{2}}
\end{bmatrix} = -E\begin{bmatrix}
(\frac{\partial log f(x;\theta)}{\partial \theta})^{2}
\end{bmatrix}$$
이는 $\frac{\partial log f(x;\theta)}{\partial\theta}$라는 확률변수의 분산을 구하는것과 동일하다.
양쪽을 모두 동등하게 피셔 정보라 부른다.
-. 한편, $\frac{\partial log f(x;\theta)}{\partial\theta}$는 '스코어 함수'라고 부른다. 이는 이 함수가 분포의 pdf에서 $\theta$가 미소하게 변할 때 얼마나 큰 영향을 미치는지(=스코어) 확인할 수 있는 측도기 때문이다. 이 값이 크다는것은, 그만큼 $\theta$가 해당 분포에 대하여 많은 정보를 함축하고 있음을 의미한다.
-. 피셔정보는, 이 스코어 함수의 분산을 구하는 것이다. 즉, 정보가 얼마나 변화할 수 있는지를 표현하는 측도이다.
${(5)}$ 피셔정보의 선형결합
-. 피셔정보는 선형결합을 허용한다. 그것도 만약 n개의 확률변수의 선형결합이라면 단순히 $nI(\theta)$로 나타낼 수 있다.크기 n인 확률표본 $[X_{1}, \dots X_{n}]$의 집합의 결합우도함수를 $L(\theta)$라고 정의하자.
이 때, 이 결합우도함수를 이용한 피셔정보는 다음과 같이 나타낼 수 있다.
$$\frac{\partial log L(\theta ; X)}{\partial \theta} = \frac{\partial}{\partial \theta}[f(X_{1};\theta)] + \frac{\partial}{\partial \theta}[f(X_{2};\theta)] + \dots + \frac{\partial}{\partial \theta}[f(X_{n};\theta)] = \sum_{i = 1}^{n} \frac{\partial}{\partial \theta}[f(X_{i};\theta)]$$
이 때, 정의한 이 확률변수의 제곱의 기댓값이 바로 피셔정보이다. 즉
$$ I(\theta) = E\begin{bmatrix}
(\sum_{i = 1}^{n}\frac{\partial}{\partial \theta}[f(X_{i};\theta)])^{2}
\end{bmatrix} $$
위 선형결합을 쭉 펼치면
$$\sum_{i = 1}^{n}E\begin{bmatrix}
(\frac{\partial}{\partial \theta}[f(X_{i};\theta)])^{2}
\end{bmatrix} = E\begin{bmatrix}
(\frac{\partial}{\partial \theta}[f(X_{1};\theta)])^{2}
\end{bmatrix} + E\begin{bmatrix}
(\frac{\partial}{\partial \theta}[f(X_{2};\theta)])^{2}
\end{bmatrix} + \dots + E\begin{bmatrix}
(\frac{\partial}{\partial \theta}[f(X_{n};\theta)])^{2}
\end{bmatrix}$$
한편, 위 확률표본들은 동일한 확률변수 X에서 추출된 표본들이므로,
그 기댓값을 구하는것은 X에 대한 기댓값을 구하는것과 동치이다. 따라서
$$\sum_{i = 1}^{n}E\begin{bmatrix}
(\frac{\partial}{\partial \theta}[f(X_{i};\theta)])^{2}
\end{bmatrix} \rightarrow \sum_{i = 1}^{n}E\begin{bmatrix}
(\frac{\partial}{\partial \theta}[f(X;\theta)])^{2}
\end{bmatrix} = nI(\theta)$$
이 결과로 피셔정보의 선형결합은 그 정보량을 n배 증가시키는것을 증명하였다.
3) 라오-크레머 하한 부등식
${(1)}$ 라오-크레머 하한은 모수 $\theta$에 대하여 그 불편추정량이 가질 수 있는 가장 작은 분산 추정량을 제시한다.
-. 다시 말해, 우리가 구한 불편추정량이 이 가장 작은 분산 추정량( = 라오-크래머 하한)을 가지면 그것이 그 파라미터를 추정하는 불편추정량이 가질 수 있는 최소값이며, 따라서 모든 불편추정량 중 으뜸인 MVUE으로 간주할 수 있다.
${(2)}$ 라오 - 크래머 하한 부등식은 피셔 정보를 활용한다. 다음과 같이 유도할 수 있다.
확률변수 X에서 추출한 확률표본 집합 $[X_{1}, \dots X_{n}]$을 i.i.d라고 가정하자.
다음의 통계량을 가정하자
$Y = u(X_{1}, \dots X_{n})$
이 때, 이 통계량의 기댓값을 다음과 같이 정의하자
$E(Y) = E[u(X_{1}, \dots X_{n})] = k(\theta)$
이 기댓값을 적분식으로 표현하면 아래와 같다.
$$\int_{-\infty}^{\infty} \dots \int_{-\infty}^{\infty} u(x_{1}, \dots x_{n})f(x_{1};\theta) \dots f(x_{n};\theta)dx_{1} \dots dx_{n}$$
이 식을 $\theta$에 대하여 미분하면, 미분의 연산법 중 곱셈연산과
피셔정보를 유도할 때 $f(X:\theta)$로 나눠주고 곱해 형태를 만들었던 전례에 따라
$$k'(\theta) \\ = \int_{-\infty}^{\infty} \dots\int_{-\infty}^{\infty} \frac{\partial}{\partial \theta} [u(x_{1}, \dots x_{n})f(x_{1};\theta) \dots f(x_{n};\theta)]dx_{1} \dots dx_{n} \\
= \int_{-\infty}^{\infty} \dots\int_{-\infty}^{\infty} u(x_{1}, \dots x_{n})\sum_{i=1}^{n}[\frac{1}{f(x_{i};\theta)} \cdot \frac{\partial f(x;\theta)}{\partial \theta}]\cdot \prod_{i=1}^{n}f(x_{i};\theta)dx_{1} \dots dx_{n} \\
= \int_{-\infty}^{\infty} \dots\int_{-\infty}^{\infty} u(x_{1}, \dots x_{n})\sum_{i=1}^{n}[\frac{\partial log f(x;\theta)}{\partial \theta}]\cdot \prod_{i=1}^{n}f(x_{i};\theta)dx_{1} \dots dx_{n} \dots ①$$
한편, 다음의 다변량 확률변수를 정의하자
$Z = \frac{\partial log f(x;\theta)}{\partial \theta}$
피셔정보를 유도하면서 다음의 사실을 알게되었다.
$E(Z) = 0$ 이고 $Var(Z) = nI(\theta)$
또한, Y와 Z를 이용하면 ①을 $E(YZ)$로 취급할 수 있다. 따라서
$$k'(\theta) = E(YZ) = E(Y)E(Z) + \rho \sigma_{Y}\sqrt{nI(\theta)}$$
이 때, \rho는 Y와 Z의 상관계수를 의미하고 뒤의 항은 공분산과 상관계수의 관계를 따왔다.
$E(Z) = 0$이라는 사실을 이용하면
$$k'(\theta) = \rho \sigma_{Y}\sqrt{nI(\theta)}$$
우변에 상관계수 $\rho$만 남기고 식을 정리하면
$$\frac{k'(\theta)^{2}}{\sigma_{Y}^{2}nI(\theta)} = \rho^{2}$$
한편, $\rho^{2}$은 상관계수의 정의에 따라 1 이하인 수이다. 따라서 부등식 형식으로 이를 고치면
$$\frac{k'(\theta)^{2}}{\sigma_{Y}^{2}nI(\theta)} \leq 1$$
분모의 $\sigma_{Y}^{2}$, 즉 Y의 분산을 우변으로 이항하면
$$\frac{k'(\theta)^{2}}{nI(\theta)} \leq \sigma_{Y}^{2}$$
이고, 이것이 바로 라오-크레머 하한 부등식이다.정식 라오-크레머 하한 부등식에서 한걸음 더 나아가보자.
$Y = u(X_{1}, \dots, X_{n})$ 에서, Y를 $\theta$에 대한 불편추정량이라고 한다면
$E(Y) = k(\theta) = \theta$이다.
$\theta$에 대하여 $\theta$로 1계 미분해주면 그 값은 1과 같다.
따라서 라오-크레머 부등식은 다음과 같이 간단화될 수 있다.
$$Var(Y) \geq \frac{1}{nI(\theta)}$$ - 효율성
1) 효율성과 효율추정량
${(1)}$ 이제, 라오-크레머 부등식을 구했으니 불편추정량이 얼마나 으뜸 추정량인지 구할 수 있다.
${(2)}$ 그 정도를 구하는데 다음의 두가지 개념이 등장한다.-. 효율 추정량
불편추정량 후보 Y를 확률표본 $[X_{1}, \dots, X_{n}]$을 이용해 만든 통계량이라고 하자.
이 때, Y의 분산이 라오-크레머 부등식의 하한인 경우에 이 통계량을 효율추정량이라고 한다.-. 효율성
모수에 대하여 구한 라오-크레머 하한과 추정량의 실제 분산의 비율을 효율성이라고 한다.
효율성 함수를 e라고 정의할 때, 아래와 같은 측도로 측정이 가능하다
${(1)}$효율성과 효율추정량은 좋은 정의지만, 지나치게 엄격하기도 하다.
-. 어떤 불편추정량들은 샘플의 수가 많아질수록 점차 라오크래머 하한에 점근적으로 가까워지기도 한다.
-. 이를 반영하여, 점근적으로 라오크레머 하한에 도달하는 경우 이를 근사적으로 효율적이다라고 표현하고, 이 정도를 측정하기 위한 측도가 근사적 효율성이다.
${(2)}$ 근사적 효율성의 유도
-. n이 커질수록 점근적으로 분산이 라오-크레머 하한에 다가가는 근사적 효율성은 아래와 같이 정의 가능하다.$[X_{1}, \dots X_{n}]$을 pdf $f(x;\theta_{0})$를 가지는 확률변수 X에서 추출한 확률표본이라 하자
이 확률표본을 이용하여 다음의 불편추정량인 통계량을 정의하자
$$\widehat{\theta}_{0} = \widehat{\theta}_{0}(X_{1}, \dots, X_{n})$$
이 통계량이 다음을 만족한다고 하자
$$\sqrt{n}(\widehat{\theta}_{0} - \theta_{0}) \overset{D}{\rightarrow} N(0, \sigma_{\widehat{\theta_{0}}}^{2})$$
즉, 통계량 $\widehat{\theta}_{0}$의 분산을 가지는 정규분포로 분포수렴한다.이 때, 근사적 효율성 함수를 e라고 할 때, 아래와 같이 정의한다.
$$e(\widehat{\theta_{0}}) = \frac{1/I(\theta_{0})}{\widehat{\theta}_{0}}$$
이 비율이 1에 가까울수록, 통계량 $\widehat{\theta_{0}}$는 근사적으료 효율적이라고 한다.이 때, 마찬가지로 $\theta_{0}$에 대한 불편추정량인 다음의 통계량을 정의하자
$$\widehat{\theta}_{1} =\widehat{\theta}_{1}(X_{1}, \dots, X_{n})$$
이 때, 두 추정량의 근사 효율성의 비율, 즉 근사적 상대 효율성은 다음과 같이 정의할 수 있다.
$$e(\widehat{\theta_{0}}, \widehat{\theta_{1}}) =\frac{1/I(\theta) / \widehat{\theta_{0}}}{1/I(\theta) /\widehat{\theta_{1}}} = \frac{\widehat{\theta_{1}}}{\widehat{\theta_{0}}}$$
만약, $\widehat{\theta_{0}}$가 $\widehat{\theta_{1}}$ 보다 더 양질의 추정량일경우,
근사적 상대 효율성은 1을 넘을 것이다.
-. 한편, 최대우도추정량의 경우는 아래의 중심극한정리를 만족한다.
$[X_{1}, \dots, X_{n}]$을 $\theta_{0}$를 pdf $f(X;\theta_{0})$라는 pdf를 가지는 확률변수 X에서 추출한 확률표본이라 하자.
$\theta_{0}$의 최대우도추정량을 $\widehat{\theta}$라고 할 때 다음은 참이다.
$$\sqrt{n}(\widehat{\theta} - \theta_{0}) \overset{D}{\rightarrow} N(0, \frac{1}{I(\theta_{0})})$$
증명은 Hogg et.al(2013)을 참조
-. 따라서, 어떤 추정량을 가져오던간에 항상 근사적으로 상대 효율적이다. - 참조문헌
1) Hogg et.al, “Introduction to mathematical statistics, 7th edition”,Pearson Education.Inc(2013), p.362
'수리통계' 카테고리의 다른 글
19-1 다변량 함수에서의 최대우도추정 (0) | 2023.07.18 |
---|---|
31. 최대우도검정 (0) | 2023.07.17 |
29-1 다변량 중심극한정리 (0) | 2023.07.13 |
29. 중심극한정리 (2) | 2023.07.12 |
28. 분포수렴 (1) | 2023.07.11 |