Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- Media Mix Modeling
- mmm
- 프로그래머를 위한 선형대수 #선형대수 #LU분해
- 미적분
- bayesian inference
- 수리통계
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #야코비 회전법 #QR법 #하우스홀더반사 #행렬회전
- 프로그래머를 위한 선형대수 #선형대수 #고유분해 #고윳값 #고유벡터
- 미적분 #평균값 정리 #로피탈의 정리 #접선의 방정식
- 미적분 #접선의 방정식 #최적화 #뉴턴법 #뉴턴-랩슨법
- 시계열분석 #Time-Series Analysis #이상탐지 #Anomaly Detection #Spectral Residual #CNN #SR-CNN
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #고유분해
- Optimization
- 프로그래머를 위한 선형대수 #선형대수 #행렬계산
- 미적분 #사인과 코사인의 도함수
- bayesian
- Marketing Mix Modeling
- lightweightmmm
Archives
- Today
- Total
문과생 네버랜드의 데이터 창고
33. 충분통계량 본문
- 충분통계량이란?
1) 충분통계량에 대한 정의와 설명
${(1)}$ pdf $f(x;\theta)$를 갖는 분포에서 추출한 확률표본인 $[X_{1}, \dots, X_{n}]$ 에서어떤 통계량 $Y_{1} = u(x_{1}, \dots, x_{n})$를 정의하자. 이 통계량은 모수 $\theta$를 추정하고자 한다.
${(2)}$ 이 때, '충분하다'라는 의미는 다음과 같다.
-. $X_{1}, \dots, X_{n}|Y_{1}$ 이라는 조건부 다변량 분포를 정의했을 때, 그 pdf는 다음과 같이 나타낼 수 있다.
$$\frac{f(x_{1}, x_{2}, \dots, x_{n};\theta)}{f(u(x_{1}, \dots, x_{n});\theta)}$$
-. 만약, 이 조건부 pdf를 정리한 결과가 다음과 같이 나타났다고 하자.
$$\frac{f(x_{1}, x_{2}, \dots, x_{n};\theta)}{f(u(x_{1}, \dots, x_{n});\theta)} = h(x_{1}, \dots, x_{n})$$
-. 우변이 모수 $\theta$에 전혀 의존하지 않는다는점에 주목하자.
-. 만약, $X_{1}, \dots, X_{n}|Y_{1}$을 이용하여 또다른 통계량 $Y_{2} = u(x_{1}, \dots, x_{n}|Y_{1})$를 정의하고자 한다면, 이제 이 통계량은 모수 $\theta$에 대하여 그 어떤 추론을 수행할 수도 없을 것이다.(모수 $\theta$에 대한 정보가 하나도 없기 때문이다.)
${(3)}$ 이런 상황이 발생하는 경우를 '통계량이 충분하다'라고 표현하고, 충분성을 만족시키도록 하는 통계량 $Y_{1}$을 충분 통계량이라고 한다.
2) 네이만의 인수분해 정리
${(1)}$ 앞서 충분통계량을 판별하는 방법은 다음과 같다고 했다.
$$\frac{f(x_{1}, x_{2}, \dots, x_{n};\theta)}{f(u(x_{1}, \dots, x_{n});\theta)} = h(x_{1}, \dots, x_{n})$$
-. 이런 정의의 문제는 통계량의 pdf를 직접 구하는것이 매우 어렵고, 심지어는 닫힌 형태로 구하기 어려운 경우도 발생할 수 있다는 점이다.
${(2)}$ 이런 난점을 해소하기 위해 충분통계량에 대한 새로운 정의를 제시하는데, 이를 네이만의 인수분해 정리라고 한다.
$[X_{1}, \dots, X_{n}]$을 $\theta \in \Omega$ 일 때
pdf(혹은 pmf) $f(x;\theta)$를 갖는 분포에서 추출한 확률표본이라 하자.
다음의 통계량을 정의하자
$$Y_{1} = u(X_{1}, \dots, X_{n})$$
$Y_{1}$은 다음의 경우에 해당하는 경우 충분통계량이다.
$$f(x_{1}; \theta) \cdot f(x_{2}; \theta) \dots f(x_{n}; \theta) = k_{1}[u(x_{1}, \dots, x_{n});\theta] \cdot k_{2}(x_{1}, \dots, x_{n}) \dots ①$$
즉, $\theta$에 의존하는 통계량의 함수 $k_{1}$과 $\theta$에 의존하지 않는 함수 $k_{2}$로 인수분해가 가능해야 한다.이는 다음과 같이 증명할 수 있다.
$Y_{1} = u_{1}(X_{1}, \dots, X_{n})$으로 정의하고, $Y_{2} = u_{2}(X_{1}, \dots, X_{n})$ 으로 정의한다.
이런 방식으로 n개의 통계량 $[Y_{1}, \dots, Y_{n}]$을 정의하자.
$[X_{1}, \dots, X_{n}]$에 대하여 역함수를 정의하면 다음과 같이 표현할 수 있다.
$$X_{1} = w_{1}(y_{1}, \dots, y_{n}) \\ X_{2} = w_{2}(y_{1}, \dots, y_{n}) \\ ... \\ X_{n} = w_{n}(y_{1}, \dots, y_{n})$$
이 때, 역변환에 대한 $|J|$를 정의 가능하다.(증명과정에 불필요하기 때문에 굳이 구하진 않는다.)
$[Y_{1}, \dots, Y_{n}]$에 대하여 결합 pdf를 구하면 다음과 같다.
$$g(y_{1}, \dots, y_{n};\theta) = k_{1}(y_{1};\theta)\cdot k_{2}(w_{1}, w_{2}, \dots, w_{n})|J|$$
위 결합 pdf를 이용하여 $y_{1}$에 대한 주변pdf를 구하면
$$f(y_{1};\theta) = \int \dots \int k_{1}(y_{1};\theta)\cdot k_{2}(w_{1}, w_{2}, \dots, w_{n})|J| dy_{2}dy_{3} \dots dy_{n} \\ = k_{1}(y_{1};\theta) \int \dots \int \cdot k_{2}(w_{1}, w_{2}, \dots, w_{n})|J| dy_{2}dy_{3} \dots dy_{n}$$
이 때, 적분식은 모수 $\theta$에 의존하지 않고, $y_{2}, \dots, y_{n}$에 대해서는 적분을 통해 사라질 것이다. 즉, $y_{1}$만이 존재하는 어떤 임의의 함수
$$\int \dots \int \cdot k_{2}(w_{1}, w_{2}, \dots, w_{n})|J| dy_{2}dy_{3} \dots dy_{n} = m(y_{1})$$ 이다.
정리하면
$$f(y_{1};\theta) = k_{1}(y_{1};\theta) \cdot m(y_{1}) \dots ②$$
한편, 가정 처음의 가정 ①
$$f(x_{1}; \theta) \cdot f(x_{2}; \theta) \dots f(x_{n}; \theta) = k_{1}[u(x_{1}, \dots, x_{n});\theta] \cdot k_{2}(x_{1}, \dots, x_{n})$$을 적절하게 변형하면
$$k_{1}[u(x_{1}, \dots, x_{n});\theta] = \frac{f(x_{1}; \theta) \cdot f(x_{2}; \theta) \dots f(x_{n}; \theta)}{k_{2}(x_{1}, \dots, x_{n})}$$
이 항등식을 ②에 대입하면
$$f(y_{1};\theta) = \frac{f(x_{1}; \theta) \cdot f(x_{2}; \theta) \dots f(x_{n}; \theta)}{k_{2}(x_{1}, \dots, x_{n})} \cdot m(y_{1})$$
$f(x_{1}; \theta) \cdot f(x_{2}; \theta) \dots f(x_{n}; \theta)$에 대한 식으로 정리하면
$$\frac{f(x_{1}; \theta) \cdot f(x_{2}; \theta) \dots f(x_{n}; \theta)}{f(y_{1};\theta)} = \frac{k_{2}(x_{1}, \dots, x_{n}) }{m[y_{1}]} \dots ③$$
통계량 $Y_{1}$의 조건부 분포의 pdf(즉, 좌변)을 정리한 결과 우변의 $\frac{k_{2}}{m}$의 함수가 도출되는데,
우변은 분자도 분모도 모두 모수 $\theta$에 의존하지 않는다.
따라서 충분통계량에 대한 원래의 정의에 따라 인수분해가 가능한경우는 마찬가지로 충분통계량임이 입증된다.
${(1)}$ 충분통계량과 최소분산불편추정량 간에는 관계가 있다.
-. 최소분산불편추정량(MVUE)이란 모든 불편추정량 중에서 그 분산이 가장 작은 으뜸 추정량을 의미한다.
-. 불편추정량 중 충분통계량의 함수꼴로 나타낸 불편추정량은 그렇지 않은 불편추정량보다 분산이 더 작다. 이는 다음의 라오-블랙웰 정리가 증명한다.$[X_{1}, \dots, X_{n}]$을 $\theta \in \Omega$에 대하여 pdf $f(x;\theta)$를 갖는 분포에서 추출한 확률표본이라 하자.
다음의 통계량이 $\theta$에 대한 충분통계량이라 가정하자
$Y_{1} = u_{1}(X_{1}, \dots X_{n})$
또, 다음의 통계량이 $\theta$에 대한 불편추정량이라고 하자. 이때 $Y_{2}$는 $Y_{1}$엔 의존하지 않는다.
$Y_{2} = u_{2}(X_{1}, \dots X_{n})$
이 때, 다음의 조건부 분포에 대한 기댓값을 구한다. 조건부 분포에 대한 기댓값을 함수 $\varphi$라고 하자.
$E(Y_{2} | Y_{1}) = \varphi(Y_{1})$
이 때, $\varphi$의 기댓값 $E[E(Y_{2}|Y_{1})] = E(Y_{1}) = \theta$로 나타낼수 있음이 증명되어 있다.
또 $Var[E(Y_{2}|Y_{1})] \leq Var[Y_{2}]$ 또란 증명되어있다.
따라서 변환된 통계량 $\varphi(Y_{1}) = E(Y_{2} | Y_{1})$은 $\theta$에 대한 충분통계량의 함수이면서 불편추정량이고,또한 $Y_{2}$보단 분산이 작다.
-. 한편, 라오 블랙웰 정리를 읽다보면, "그럼 충분통계량 함수꼴에 대한 더 깊은 수준의 충분통계량을 정의하고, 다시 더 깊은수준의 정의.. 정의.. 정의.. 해서 꼬리를 물면 분산을 무한정 줄여버릴 수 있는건가?"라는 의문점을 가질 수 있다. 이는 사실이 아니며, 다음의 반례를 통해 반박할 수 있다.$[X_{1}, X_{2}, X_{3}]$를 $\theta > 0$인 지수분포에서 추출한 확률표본이라 하자.
따라서,이 세 확률표본의 결합pdf는 다음과 같이 정의할 수 있다.
pdf $f(x;\theta) = (\frac{1}{\theta})^{3}exp(-\frac{x_{1} + x_{2} + x_{3}}{\theta})$
이 때, 인수분해 법칙에 따라 다음의 통계량은 $\theta$에 대한 충분통계량이다.
$Y_{1} = \sum_{i=1}^{3}x_{i}$
라오-블랙웰 정리에 따라 이 충분통계량의 기댓값은 다음과 같이 구할 수 있다.
$E(Y_{1}) = E(X_{1}) + E(X_{2}) + E(X_{3}) = 3\theta$
따라서, $\frac{Y_{1}}{3}$은 $\theta$에 대한 최선의 불편추정량 중 하나이다.
한편, 무리수를 두어 추가적으로 다음의 통계량을 정의해보자.
$Y_{2} = X_{2} + X_{3}$
$Y_{3} = X_{3}$
역함수는 다음과 같다.
$X_{1} = Y_{1} - Y_{2}$
$X_{2} = Y_{2} - Y_{3}$
$X_{3} = Y_{3}$
이 때, 변환 야코비안은 1이 된다.
변환된 결합 pdf는 다음과 같다.
pdf $f(y_{1}, y_{2}, y_{3}) = \frac{1}{\theta}^{3}exp(\frac{-y_{1}}{\theta}) \cdot 1$
$Y_{1}$ 과 $Y_{3}$의 주변 pdf는 다음과 같이 구할 수 있다.
$$f(y_{1},y_{3}) = \int_{y_{3}}^{y_{1}} \frac{1}{\theta}^{3}exp(\frac{-y_{1}}{\theta})dy_{2} \\ =\frac{1}{\theta}^{3}(y_{1} - y_{3})exp(\frac{-y_{1}}{\theta})$$
한편, $Y_{3} = X_{3}$에 대하여 $Y_{3}$만의 pdf는 다음과 같이 나타낼 수 있다.
$$f(y_{3};\theta) = (\frac{1}{\theta})exp(-\frac{y_{3}}{\theta})$$
3중 결합 pdf로 나타내지 않았음에 유의하자
마침내, 긴 여정을 통해 $Y_{1} | Y_{3}$ 라는 조건부 분포를 정의할 수 있다. 이 조건부 분포의 pdf는 다음과 같이 나타낼 수 있다.
$f(y_{1}|y_{3}) = \frac{f(y_{1},y_{3})}{f(y_{3})} = \frac{\frac{1}{\theta}^{3}(y_{1} - y_{3})exp(\frac{-y_{1}}{\theta})}{(\frac{1}{\theta})exp(-\frac{y_{3}}{\theta})} = \frac{1}{\theta}^{2}(y_{1} - y_{3})exp(-\frac{y_{1} - y_{3}}{\theta})$
이제 $E(\frac{Y_{1}}{3}|Y_{3})$을 정의하면
$$E(\frac{Y_{1}}{3}|Y_{3}) = E(\frac{Y_{1} - Y_{3}}{3}|Y_{3}) + E(\frac{Y_{3}}{3}|Y_{3})$$
-. $E(\frac{Y_{1} - Y_{3}}{3}|Y_{3})$를 적분식으로 나타내면
$$E(\frac{Y_{1} - Y_{3}}{3}|Y_{3}) - \frac{1}{3}\int_{y_{3}}^{\infty}(\frac{1}{\theta})^{2}(y_{1} - y_{3})^{2}exp(-\frac{y_{1}-y_{3}}{\theta})dy_{1} \\ = \frac{1}{3}\frac{\Gamma(3)\theta^{3}}{\theta^{2}}$$
-. $E(\frac{Y_{3}}{3}|Y_{3})$ 는 단순히 $\frac{y_{3}}{3}$ 과 같다.
위에서 나온 식을 모두 정리하여 하나로 합치면
$E(\frac{Y_{1}}{3}|Y_{3}) = \frac{2\theta + y_{3}}{3}$
위와 같은 함수를 $\phi(y_{3})$ 라고 정의하자.
$E(\phi(y_{3})) = E(\frac{2\theta + y_{3}}{3}) = \frac{3\theta}{3} = \theta$ 이고,
분산 또한 라오-블랙웰 정리에 따라 $\frac{Y_{1}}{3}$보다는 분명 분산이 작을것이다.
그러나, $\phi(y_{3}) = \frac{2\theta + y_{3}}{3}$는 내부에 모수 $\theta$를 포함하고 있다.
통계량에 정의에 따르면, 통계량은 확률표본 $[X_{1}, \dots, X_{n}]$에 의해 구성되어야 하며, $\theta$를 추정해야한다.
다시 말해서, 이미 그 내부식에 $\theta$가 들어가있으면 그것은 통계량이라고 할 수 없다.(원천적인 모순이다)
따라서, $Y_{3}$는 라오블랙웰 조건을 만족하긴 하나 통계량이 아니고, 따라서 추정량이 될 수 없다.
${(2)}$ 충분통계량과 최대우도추정량간에는 관계가 있다.
-. 최대우도추정량(MLE)란 모수 $\theta$에 대하여 우도 함수를 극대화하는 추정량(통계량)을 의미한다.
-. 그리고, 충분통계량과 최대우도추정량간에는 매우 직접적인 관계가 존재한다.$X_{1}, \dots, X_{n}$을 $\theta \in \Omega$에 대하여 $pdf f(x;\theta)$를 갖는 분포에서 추출한 확률표본이라 하자.
$\theta$에 대하여 다음의 충분통계량을 정의하자
$$Y_{1} = u_{1}(X_{1}, \dots, X_{n})$$
또, $\widehat{\theta}$를 $\theta$에 대한 최대우도추정량이라고 하자.
최대우도추정량 $\widehat{\theta}$이 유일하게 존재한다면, $\widehat{\theta}$는 충분통계량 $Y_{1}$의 함수여야 한다.증명은 다음과 같이 할 수 있다.
$f(Y_{1};\theta)$를 $Y_{1}$의 pdf(혹은 pmf)라고 하자.
한편, 확률표본 $[X_{1}, \dots, X_{n}]$에 대하여 우도함수는 다음과 같이 정의한다.
$L(\theta;X) = \prod_{i=1}^{n}f(x_{i};\theta)$
한편, 우리는 네이만 인수분해의 증명 중 ③을 통해 다음의 관계를 증명하였다.
$$\prod_{i=1}^{n}f(x_{i};\theta) = f(Y_{1};\theta) \cdot\frac{k_{2}(x_{1}, \dots, x_{n})}{m[u_{1}(x_{1}, \dots, x_{n})]} = f(Y_{1};\theta) \cdot H(x_{1}, \dots, x_{n}))$$
$H(x_{1}, \dots, x_{n}))$는 $\theta$에 의존하지 않으므로, 이 식은 우도와 관련이 없다.
따라서 이 우도함수는 오로지 $f(Y_{1};\theta)$ 에만 의존한다.
최대우도추정량 $\widehat{\theta}$는 유일하게 존재한다고 조건을 걸었으므로, 이 우도함수를 최대화하는 $\theta$는 오직 충분통계량 $Y_{1}$에만 의존해야한다.
이로서 증명이 완료되었다.
-. 또한, MLE는 근사적으로 효율적 인 효율통계량임을 증명하였다. 만약 우리가 구한 MLE가 불편추정량이고, 그것이 충분통계량의 함수꼴이라면 우리는 유일한 최소분산불편추정량의 후보 중 하나로 MLE를 고려할 수 있다.
'수리통계' 카테고리의 다른 글
34-1 다중 모수에서의 충분통계량 (0) | 2023.07.25 |
---|---|
34. 완비충분통계량 (0) | 2023.07.24 |
32. EM 알고리즘(with GMM) (2) | 2023.07.20 |
31-1 다중 모수의 최대우도검정 (0) | 2023.07.19 |
19-1 다변량 함수에서의 최대우도추정 (0) | 2023.07.18 |