문과생 네버랜드의 데이터 창고

37. 축차확률비 검정 본문

수리통계

37. 축차확률비 검정

K JI 2023. 7. 27. 18:45
  1. 축차확률비 검정이란 무엇인가?
    1) 앞서 우도비 검정을 이용하여 균일최강력검정을 수행하는 방법론을 살펴보았다.
    ${(1)}$ 우도함수는 계속해서 다음과 같이 정의하였다. n이 표본의 갯수라고 할 때
    $$L(\theta;n) = f(x_{1};\theta) \cdot f(x_{2};\theta) \dots f(x_{n};\theta)$$
    ${(2)}$ 위 우도식을 이용한 우도비 검정은 최량 기각역을 가진다는것을 네이만-피어슨 정리를 이용해 보였다. 즉
    $$\frac{L(\theta_{H0};n)}{L(\theta_{n};n)} \leq k$$의 형태로 나타나는 우도비검정은 최량기각역을 가지고, 이를 이용해 최강력검정을 수행할 수 있다.

    2) 그러나, 현실에서는 다음의 문제가 발생할 수 있다.
    ${(1)}$ 예를 들어 어떤 공장의 생산 공정이라고 할 때, 생산되는 상품의 무게에 대하여 다음의 가설을 세운다고 하자.
    $$ H_{0} : \theta = 30 \ VS \ H_{1} : \theta \neq 30 $$

    ${(2)}$ 이에 대한 우도비 검정을 수행하려고 하지만, 다음의 문제에 봉착할 수 있다.

    -. 생산 공정은 순차성을 가지는, 표본갯수 n이 확정되지 않은 과정(sequence)이다. 즉, 100개째에 불량이 발생할지, 1000개째에 불량이 발생할 지 그 누구도 장담할 수 없다.

    3) 샘플의 갯수가 확정되어있지 않고, 순차성을 가지는 과정에 대하 적용이 가능한 우도비 검정이 있으면 편리할 것이다.

    ${(1)}$  이런 문제를 해결하기 위해 다음과 같은 과정을 도입하자
    -. 표본이 단 하나만 실현된 경우 $L(\theta ; 1) = f(x_{1};\theta)$
    -. 표본이 두개 실현된 경우 $L(\theta ; 2) = f(x_{1}, \theta) \cdot f(x_{2};\theta)$
    -. 표본이 n개 실현된 경우 : $L(\theta ; n) = \prod_{i=1}^{n}f(x_{i};\theta)$

    ${(2)}$ 각각의 경우에 대하여 다음의 가설에 대해 검증을 수행한다.
    $$H_{0} : \theta = \theta_{1} \ VS \theta = \theta_{2}$$
    즉, 이는 단순가설에 대한 단순가설의 검정이다.
    -. 표본이 단 하나만 실현된 경우 : $\frac{L(\theta_{1} ; 1)}{L(\theta_{2} ; 1)} = \frac{f(x_{1};\theta_{1})}{f(x_{1};\theta_{2})}$ 
    -. 표본이 두개 실현된 경우 :$\frac{L(\theta_{1} ; 2)}{L(\theta_{2} ; 2)} = \frac{f(x_{1};\theta_{1})}{f(x_{1};\theta_{2})} \cdot \frac{f(x_{2};\theta_{1})}{f(x_{2};\theta_{2})}$
    -표본이 n개 실현된 경우 : $\frac{L(\theta_{1} ; n)}{L(\theta_{2} ; n)} = \frac{f(x_{1};\theta_{1})}{f(x_{1};\theta_{2})} \cdot\frac{f(x_{2};\theta_{1})}{f(x_{2};\theta_{2})} \dots \frac{f(x_{n};\theta_{1})}{f(x_{n};\theta_{2})}$

    ${(3)}$ 특히 n개 실현된 경우에 대하여 그 우도비가 다음 두개의 집합중 하나에 속한다고 하자.
    -. $C_{n} = \{X_{n} : k_{0} < \frac{L(\theta_{1};j)}{L(\theta_{2};j)} < k_{1} \ (j = 1,2,\dots,n-1), \frac{L(\theta_{1};j)}{L(\theta_{2};j)} \leq k_{0}\}$  
    -. $B_{n} = \{X_{n} : k_{0} < \frac{L(\theta_{1};j)}{L(\theta_{2};j)} < k_{1} \ (j = 1,2,\dots,n-1),\frac{L(\theta_{1};j)}{L(\theta_{2};j)} \geq k_{1}\}$

    ${(4)}$ 각 집합별로 가설 검정의 결과물을 다르게 한다.
    -. n번째에 해당 우도비 검정통계량이 집합 $C_{n}$이 속하면 $\theta = \theta_{1}$을 채택한다.
    -. n번째에 해당 우도비 검정통계량이 집합 $B_{n}$에 속하면 $\theta = \theta_{2}$를 채택한다.
    -. n번째에 해당 우도비 검정통계량이 $k_{0} < \frac{L(\theta_{1};n)}{L(\theta_{2};n)} < k_{1}$에 속할 경우 결론을 내리지 않고 관찰을 계속한 

    ${(5)}$ 위와 같이, 순차적 과정에 대하여 정해진 Band $(k_{0}, k_{1})$ 사이에 속하는지 여부를 지속 관찰하여 어떤 가설에 대한 결론을 내리는 검정법을 축차확률비 검정이라고 하고, 이와 같은 검정법을 연구하는 부분을 축차과정이라 부른다.

    4) 축차확률비 검정의 검정력함수

    ${(1)}$ $\alpha$를 1종오류의 확률이라 하고, $\beta$를 2종오류 확률이라고 하자.
    -. $P_{H0}(X \in C_{n}) = \alpha$, $P_{H1}(X \in C_{n}) = 1-\beta$로 정의하자.

    ${(2)}$ 축차비 검정에서 각각의 확률함수는 다음과 같이 나타낼 수 있다.
    -. $\alpha = P_{H0}(X \in C_{n}) = \sum_{n=1}^{\infty}\int_{C_{n}}L(\theta_{1},n)$
    -. $(1-\beta) = P_{H1}(X \in C_{n}) = \sum_{n=1}^{\infty}\int_{C_{n}}L(\theta_{2},n)$

    ${(3)}$ 이 확률의 여집합, 즉 $H_{0}$를 채택할때의 검정력은
    -. $(1-\alpha) = \sum_{n=1}^{\infty}\int_{B_{n}}L(\theta_{1},n)$
    -. $\beta = \sum_{n=1}^{\infty}\int_{B_{n}}L(\theta_{2},n)$

    ${(4)}$ 이때, 확률표본 $X_{1}, \dots, X_{n} \in C_{n}$이면 
    -. $L(\theta_{1};n) \leq k_{0} L(\theta_{2})$ 이고, 이는 곧 $\alpha \leq k_{0}(1-\beta)$
    -. 반대로, $X_{1}, \dots, X_{n} \in B_{n}$ 이면 $L(\theta_{2};n) \leq k_{1}L(\theta_{1})$ 이고, 이는 곧 $(1-\alpha) \leq k_{1}\beta$

    ${(5)}$ 위를 정리하면
    -. $\frac{\alpha}{1-\beta} \leq k_{0}$ 이고
    -. $\frac{1-\alpha}{\beta} \leq k_{1}$ 이다.

    ${(6)}$ $\alpha_{\alpha}$, $\beta_{\alpha}$를 다음을 성립하게 하는 미리 정한 진분수(비율)이라고 하자 
    -. $\frac{\alpha_{\alpha}}{1-\beta_{\alpha}} = k_{0} \dots ①$ 이고
    -.$\frac{1-\alpha_{\alpha}}{\beta_{\alpha}} = k_{1} \dots  ②$ 이다.

    ${(5)}$와 ${(6)}$을 결합하면
    -. $\frac{\alpha}{1-\beta} \leq \frac{\alpha_{\alpha}}{1-\beta_{\alpha}}$
    -. $\frac{1-\alpha}{\beta} \leq\frac{1-\alpha_{\alpha}}{\beta_{\alpha}}$

    ${(7)}$ 최종적으로 정리하면
    -. $\alpha(1-\beta_{\alpha}) \leq \alpha_{\alpha}(1-\beta)$
    -. $\beta(1-\alpha_{\alpha}) \leq \beta_{\alpha}(1-\alpha)$

    ${(8)}$ 부등식에서의 대소관계는 대응되는 변끼리 더해도 유지되므로 대응되는 변끼리 더하면
    -. $\alpha - \alpha \beta_{\alpha} + \beta - \beta \alpha_{\alpha} \leq \alpha_{\alpha} + \beta_{\alpha} -\alpha\beta_{\alpha} - \beta - \beta\alpha_{\alpha}$

    ${(9)}$ 위 식을 정리하면
    -. $\alpha + \beta \leq \alpha_{\alpha} + \beta_{\alpha}$ 
    즉, $\alpha + beta$는 어떠한 상한을 갖게 된다.
  2. 예제
    1) 생산공정의 이상유무 판단
    X가 $N(\theta, 100)$의 분포를 따른다. 생산되는 공정에 대하여 다음을 검정하고자 한다.
    $$ H_{0} : \theta = 75 \ VS \ H_{1} : \theta = 78 $$

    $\alpha$와 $\beta$가 각각 그 값이 근사적으로 0.1이 되는 검정을 축차확률비검정으로 수행하고자 한다.

    Band $(k_{0}, k_{1})$을 위에서 보인 ①과 ②를 이용하여 구하면
     $k_{0} = \frac{\alpha_{\alpha}}{1-\beta_{\alpha}} = \frac{0.1}{1-0.1} = \frac{1}{9}$
    $k_{1} = \frac{1-\alpha_{\alpha}}{\beta_{\alpha}} = \frac{1 - 0.1}{0.1} = 9$

    한편, 축차비를 구하기 위하여 각각의 우도함수에 대한 비율로 정의하면
    $$\Lambda = \frac{L(75,n)}{L(78,n)} = \frac{exp[-\sum(x_{i} - 75)^{2}/2(100)]}{exp[-\sum(x_{i} - 78)^{2}/2(100)]} \\ = \frac{exp(6\sum x_{i} - 459n)}{200}$$
    축차확률비검정식은 다음과 같이 정의한다.
    $$k_{0} \leq \Lambda \leq k_{1} \\ \rightarrow \frac{1}{9} \leq \frac{exp(6\sum x_{i} - 459n)}{200} \leq 9$$
    모든항에 로그함수를 취하면
    $$-log(9) \leq\frac{6\sum x_{i} - 459n}{200} \leq log(9)$$
    이 식을 충분통계량 $Y = \sum x_{i}$에 대한 식으로 고치면
    $$\frac{153}{2}n - \frac{100}{3}log(9) \leq \sum x_{i} \leq \frac{153}{2}n + \frac{100}{3}log(9)$$

    실현값 $x_{i}, \dots, x_{n}$에 대하여 그 합산값이, n에만 의존하는 하한/상한 밴드를 벗어나면
    $H_{0}$를 채택하거나 $H_{1}$을 채택하면 된다.