문과생 네버랜드의 데이터 창고

31. 최대우도검정 본문

수리통계

31. 최대우도검정

K JI 2023. 7. 17. 19:31
  1. 최대우도법과 우도비검정
    1) 최대우도법이란
    ${(1)}$ 최대우도추정량에서 우도를 다음과 같이 설명하였다.
    우도(혹은 가능도, likelihood)란, 확률표본들의 실현값들이 주어졌을때(즉, 우리가 관찰 가능한 데이터가 주어졌을 때) 이 데이터가 특정 모수를 가진 분포에서 나왔을 척도를 나타낸다. 

    모수 $\theta$를 따르는 확률변수 X에서 추출한 확률표본 $[X_{1}, X_{2}, ..., X_{n}]$의 결합분포의 pdf를 아래와 같이 정의하자.
    $$\prod_{i=1}^{n}f(x_{i};\theta)$$
    이 때, 우도함수 $L(\theta)$는 아래와 같이 정의 가능하다
    $$L(\theta) = \prod_{i=1}^{n}f(\theta;x_{i})$$
    모수 $\theta$와 $x_{i}$의 위치가 바뀐것에 주목하자.
    즉,  확률표본의 관측값 $x_{i}$이 주어졌을때의 모수 $\theta$에 대한 확률 함수의 결합이다.

    ${(2)}$ 또, 최대우도법은 아래와 같이 설명하였다. 
    최대우도법이란 어떤 분포가 가진 모수 $\theta$를 가장 잘 추정하도록 하는(= 우도가 가장 높은)
    통계량을 제시하는 방법론이다.

    ${(3)}$ 이제, 이런 개념을 가설 검정의 영역으로 확장하여 생각할 수 있다.
    -. 최대우도법을 활용하면, 모수를 가장 잘 나타내는 통계량을 도출할 수 있다.

    -. 한편, 최대우도법을 활용하여 도출한 통계량인 최대우도통계량(MLE)근사적으로 효율적인 통계량임을 증명하였다.(링크 참조)

    -. 따라서, 최대우도통계량을 이용한 어떤 가설검정을 수행한다면, 우리는 가장 효율적이고 상대적으로 모수의 추정에 대하여 정확성이 높은 검정을 수행할 수 있을 것이라고 생각할 수 있다.

    -. 이런 개념을 구체화한것이 바로 최대우도추정량을 이용한 우도비 검정이다.

    2) 우도비 검정

    ${(1)}$ 우도비 검정이란, 두 개의 우도함수의 비율로서 검정을 수행하는 검정 방법론이다.
    -. 엄밀하게 정의하면 다음과 같이 나타낼 수 있다.
    확률변수 분포의 모수를 $\theta$라고 하자.
    다음의 양측검정을 고려한다.

    $H_{0} : \theta = \theta_{0} \ vs \  H_{1} : \theta \neq \theta_{0}$
    이 때, $\theta_{0}$는 연구자가 그럴것이라고 주장하는 가설이다.

    이 때, 이 분포의 우도함수는 다음과 같이 나타낼 수 있다.
    $L(\theta) = \prod_{i=1}^{n}f(X_{i};\theta)$
    또는 동등하게 로그함수를 써서 로그우도함수
    $l(\theta) = \sum_{i=1}^{n}logf(X_{i};\theta)$
    이다.

    한편, $\widehat{\theta}$를 모수 $\theta$에 대한 최대우도추정량(MLE)이라고 하자.

    그렇다면, 가설검정의 일환으로서 다음의 비율을 정의할 수 있다.
    $$\Lambda = \frac{L(\theta_{0})}{L(\widehat{\theta})}$$
    이 비율은 최대 1의 값을 갖는다.

    ①만약, $\Lambda$가 1에 가까울경우 우리는 $H_{0}$을 지지할 것이고($\theta \approx \widehat{\theta} = \theta_{0}$) 
    ②그렇지 않고 그 값이 작을 경우 우리는 $H_{1}$을 지지할 것이다.($\theta \approx \widehat{\theta} \neq \theta_{0}$)

    즉, 이런 관점으로 해석함으로서 가설검정가능해진다.

    $$\alpha = P_{\theta_{0}}[\Lambda \leq C]$$로 정의할 때
    $$\Lambda \leq C이면 H_{0}를 기각하고 H_{1}을 채택$$
    으로 나타내는 검정 방법을 우도비 검정이라고 표현한다. 

    ${(2)}$ 우도비 검정의 예시

    -. 정규분포에 기반한 우도비 검정
    $[X_{1}, \dots X_{n}]$을 $\sigma^{2} > 0$이 알려졌고, $-\infty < \theta < \infty$일 때 $N(\theta, \sigma^{2})$을 따르는 분포에서 추출한 확률표본이라 하자.

    다음의 가설을 검정한다.
    $$H_{0} : \theta = \theta_{0} \ vs \ H_{1} : \theta \neq \theta_{0}$$

    정규분포의 pdf를 이용하여 다음과 같은 우도함수를 정의할 수 있다.

    $$L(\theta) \\
    = \prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \cdot exp\{-\frac{1}{2}(\frac{x_{i}-\mu}{\sigma})^{2}\} \\ = (\frac{1}{2\pi\sigma^{2}})^{\frac{n}{2}}exp\{-\frac{1}{2\sigma^{2}}\sum_{i=1}^{n}(x_{i} - \theta)^{2}\} \\ = (\frac{1}{2\pi\sigma^{2}})^{\frac{n}{2}}exp\{-\frac{1}{2\sigma^{2}}\sum_{i=1}^{n}(x_{i} - \overline{x})^{2}\}exp\{\frac{1}{-2\sigma^{2}}n(\overline{x} - \theta)^{2}\}$$

    한편, 모수 $\theta$는 정규분포의 $\mu$를 가리키고, 모수 $\mu$의 최대우도추정량은 표본평균 $\overline{X}$와 같다.
    따라서 다음과같이 우도비를 정의할 수 있다.

    $$\Lambda = \frac{L(\theta_{0})}{L(\widehat{\theta})}  \\ = \frac{(\frac{1}{2\pi\sigma^{2}})^{\frac{n}{2}}exp\{-\frac{1}{2\sigma^{2}}\sum_{i=1}^{n}(x_{i} - \overline{x})^{2}\}exp\{\frac{1}{-2\sigma^{2}}n(\overline{x} - \theta_{0})^{2}\}}{(\frac{1}{2\pi\sigma^{2}})^{\frac{n}{2}}exp\{-\frac{1}{2\sigma^{2}}\sum_{i=1}^{n}(x_{i} - \overline{x})^{2}\}exp\{\frac{1}{-2\sigma^{2}}n(\overline{x} - \overline{x})^{2}\}} \\ = exp\{\frac{1}{-2\sigma^{2}}n(\overline{x} - \theta_{0})^{2}\}$$

    한편, $\Lambda$에 대한 다음의 변환을 고려해보자
    $$-2log(\Lambda) = -2log(\frac{exp\{n(\overline{x} - \theta_{0})^{2}\}}{-2\sigma^{2}}) = \frac{n(\overline{x} - \theta_{0})^{2}}{\sigma^{2}} = (\frac{(\overline{x} - \theta_{0})}{\sigma/\sqrt{n}})^{2}$$

    여기서, 마지막 항인 변환
    $$(\frac{(\overline{x} - \theta_{0})}{\sigma/\sqrt{n}})^{2} \sim x^{2}(1)$$을 따름이 알려져 있다.
    따라서, 이 검정은 다음의 규칙에 따라서 결정이 가능하다.

    -. 유의수준 $\alpha$ : $\alpha$를 결정(ex. $\alpha = 0.05$)

    -. 임계값 : $\alpha = P_{\theta_{0}}(x^{2}(1) \leq h)$를 만족하는 h 

    -. 가설검정을 위한 결정식 : $-2log(\Lambda) = (\frac{(\overline{x} - \theta_{0})}{\sigma/\sqrt{n}})^{2} \geq h$ 면 $H_{0}$를 기각
  2. 우도비 검정의 종류
    1) 왈드형 검정

    ${(1)}$ 우리가 정의한 우도비 검정법이 위에서 살펴본 정규분포에서의 예시와 같이 닫힌 형태로 나타날 수 있으면 다행이나, 대부분의 경우 닫힌 형태로 표현하기 어려운 경우이다.

    ${(2)}$ 한편, 예시에서 봤듯이 $-2log(\Lambda)$로 변환하면 그 검정통계량이 $x^{2}(1)$을 따름을 보였다.

    -. 특정 조건 하에서 이는 항상 참이 될 수 있다. $-2log(\Lambda)$을 이용하는 우도비 검정을 왈드형 검정이라 부른다.
    로그 우도함수 $l(\widehat{\theta})$를 $\theta_{0}$에 대하여 2차까지 테일러 전개를 수행하면 다음과 같다.

    $$l(\widehat{\theta}) = l(\theta_{0}) + (\widehat{\theta} - \theta_{0})l'(\theta_{0}) + \frac{1}{2}(\widehat{\theta} - \theta_{0})^{2}l''(\theta_{n}^{*})$$
    단, $\theta_{n}^{*}$은 $\widehat{\theta} < \theta_{n}^{*} < \theta_{0}$인 어떤 수이다.
    한편, 다음은 참이다.
    $$① \frac{1}{n}l''(\theta_{n}^{*}) \overset{P}{\rightarrow} I(\theta_{0})$$
    $$② \frac{1}{\sqrt{n}}l'(\theta_{0}) = \sqrt{n}(\widehat{\theta} - \theta_{0})I(\theta_{0})$$
    위 사실들을 결합하면, 다음과 같이 나타낼 수 있다.
    $-2log(\Lambda) = 2(l(\widehat{\theta} -l(\theta_{0})) = \{\sqrt{nI(\theta_{0})}(\widehat{\theta} - \theta_{0})\}^{2}$

    한편, 다음은 증명되어 있다.$$\{\sqrt{nI(\theta_{0})}(\widehat{\theta} - \theta_{0})\}^{2} \overset{D}{\rightarrow} x^{2}(1)$$
    따라서, $$-2log(\Lambda) \overset{D}{\rightarrow} x^{2}(1)$$은 참이다.

    ${(3)}$ 즉, 우도비 함수를 이용한 다음의 검정으로 정의할 수 있다.
    -. 유의수준 $\alpha$ : $\alpha$를 결정(ex. $\alpha = 0.05$)
    -. 임계값 : $\alpha = P_{\theta_{0}}(x^{2}(1) \leq h)$를 만족하는 h
    -. 가설검정을 위한 결정식 : $-2log(\Lambda) \geq h$ 면 $H_{0}$를 기각

    2) 스코어 검정

    ${(1)}$ 스코어 함수를 이용하는 검정이다. 즉, 다음의 선형결합을 이용한다.
    $$\sum\frac{\partial log(X_{i} ; \theta_{0})}{\partial \theta_{0}}$$
    ${(2)}$ 다음과 같이 유도할 수 있다.
    로그 우도 함수의 선형결합의 미분, 즉 스코어 함수에 대하여 정의하자.
    $$l'(\theta) = \sum\frac{\partial log(X_{i} ; \theta_{0})}{\partial \theta_{0}}$$

    한편, 왈드형 검정에 대한 증명에서 아래의 관계를 도출해 내었다.(식 ①)
    $\frac{1}{\sqrt{n}} l'(\theta_{0}) = \sqrt{n}(\widehat{\theta} - \theta_{0})I(\theta_{0})$

    이를 이용한 다음의 통계량을 정의하자
    $$A = (\frac{l'(\theta_{0})}{\sqrt{nI(\theta_{0})}})^{2} \\ = (\frac{n(\widehat{\theta} - \theta_{0})I(\theta_{0})}{\sqrt{nI(\theta_{0})}})^{2} \\ = \frac{n^{2}(\widehat{\theta} - \theta_{0})I(\theta_{0})}{nI(\theta_{0})} \\ = nI(\theta_{0})(\widehat{\theta} - \theta_{0})^{2} \\= \{\sqrt{nI(\theta_{0})}(\widehat{\theta} - \theta_{0})\}^{2}$$
    이 때, $$\{\sqrt{nI(\theta_{0})}(\widehat{\theta} - \theta_{0})\}^{2} \overset{D}{\rightarrow} x^{2}(1)$$ 임이 증명되어 있다.(왈드형 검정 증명의 식 ②)

    즉, $$A \overset{D}{\rightarrow} x^{2}(1)$$이다.
    ${(3)}$ 다시 말해, 스코어 함수의 선형 결합에 대하여 $\sqrt{nI(\theta_{0})}$으로 나눠준 후 제곱을 한 통계량은 $x^{2}(1)$을 따른다. 
    -. 즉, 다음과 같이 이 검정을 활용할 수 있다.

    -. 유의수준 $\alpha$ : $\alpha$를 결정(ex. $\alpha = 0.05$)
    -. 임계값 : $\alpha = P_{\theta_{0}}(x^{2}(1) \leq h)$를 만족하는 h
    -. 가설검정을 위한 결정식
    ① 스코어 함수의 선형결합 $\sum\frac{\partial log(X_{i} ; \theta_{0})}{\partial \theta_{0}}$를 구한다.
    ② 피셔 정보 $I(\theta_{0})$를 구한다.
    ③ $(\frac{l'(\theta_{0})}{\sqrt{nI(\theta_{0})}})^{2} = \geq h$ 면 $H_{0}$를 기각
    이 때, $\theta_{0}$는 연구자가 주장하는 특정 가설, 즉 정해진 어떤 값임을 기억하자