문과생 네버랜드의 데이터 창고

20. 신뢰구간 본문

수리통계

20. 신뢰구간

K JI 2023. 6. 28. 19:52
  1. 계속해서, 모수 $\theta$를 추정하는 문제로 들어가보자.
    1) 우리가 추정하는 모수에 대한 추정량 $\widehat{\theta}$가 있다고 가정하자.

    ${(1)}$ 이 떄, 우리가 추정한 이 추정량 $\widehat{\theta}$가 정말 $\theta$에 대한 완전한(즉, 오차가 없는) 추정량일 확률은 낮다.
    -. 사실, $\theta$를 어떤 확률분포를 따르는 확률변수라고 가정한다면, 오차가 전혀 없을 확률 즉 $P(\theta = \widehat{\theta})$일 확률은 0과 같다.(정확한 지점에서의 확률은 0이다.)

    ${(2)}$ 아예 정확한 추정량을 구하는것은 불가능하지만, 매우매우 근접한 '좋은 품질의 추정량'을 구하는것은 충분히 가능하다.

    -. 이제, 관점을 바꿔서, 우리가 추정한 $\widehat{\theta}$가 $\theta$와 얼마나 근접했는지 확률적 관점에서 접근해 볼 수 있다.

    2) 신뢰구간을 엄밀하게 정의하면 아래와 같다.
    $[X_{1}, ..., X_{n}]$을 $pdf(x;\theta)$를 갖는 확률변수 X에서 추출한 확률표본이라 하자.

    이 확률표본을 통해 다음과 같은 두개의 통계량을 정의하자.

    -. $L = L(x_{1}, ..., x_{n})$
    -.$U = U(x_{1}, ..., x_{n})$

    이 때,$\alpha$를 0 < $\alpha$ < 1인 값이라고 할 때 
    $$(1-\alpha) = P_{\theta}[\theta \in (L,U)]$$를 정의하자. 

    이 때, 구간 (L, U)는 참모수 $\theta$에 대한 ($(1-\alpha)$ * 100) % 신뢰구간이라고 표현한다.
    이 때, ($(1-\alpha)$ * 100)는 신뢰도, 혹은 신뢰계수, 신뢰수준이라고 표현한다. 
    ${(1)}$ 위 정의를 하나하나 뜯어보면 아래와 같다.

    -. L과 U는 각각 구간의 하한과 상한을 의미한다. 이는 확률표본(원 확률변수에 대한것이 아닌!)에 대한 함수로서 도출 가능하다.

    -. (L,U)인 구간을 신뢰구간이라고 표현하고, 이 구간 안에 참모수 $\theta$가 포함될 확률(즉, $P_{\theta}[\theta \in (L,U)]$)은 $(1-\alpha)%$로 표현 가능하다.

    -. 이 때, $(1-\alpha) * 100%$를 신뢰도(신뢰계수, 신뢰수준)이라고 하고 이 신뢰수준을 갖는 (L,U)를 신뢰구간이라고 한다.

    ${(2)}$ 이는 성공 확률이 $(1-\alpha)$인 베르누이 실험으로 생각해볼 수 있다.

    -. X로부터 여러번의 표본 추출을 통해 M개의 독립적인 신뢰구간을 구했다고 가정하자

    -. 이 때, 우리가 확률표본으로부터 추출한 이 신뢰구간은 참모수 $\theta$를 포함했을수도, 포함하지 않았을수도 있다.



    확률변수 X로부터 $[X_{1}, X_{2}, ..., X_{n}]$ 확률표본 추출을 100번 반복했다고 가정했을때(즉, 선분이 100개이다)

    각각의 추출마다 $[X_{1}, X_{2}, ..., X_{n}]$를 이용하여 신뢰구간 LU를(이용한 파란색 선분을) 구할 수 있다.

    평균값 Y = $\theta$일때 이를 참모수라고 한다면,
    100개중 빨간색으로 표현한 선분 5개는 신뢰구간 선분 내에 이 참모수 $\theta$를 포함하지 않는다.

    이 경우,  신뢰구간 (L,U)에 대하여 신뢰도(신뢰계수)는 (100 - 5)% = 95%라고 표현한다. 
    -. 이런 관점 하에서, M번째의 실험이 모수 $\theta$를 포함했을 성공 확률을 $(1-\alpha)$로 해석할 수 있다.

  2. 다양한 신뢰구간 구하기
    1) 평균에 대한 신뢰구간 구하기

    ${(1)}$ 확률변수 X가 $N(\mu, \sigma^{2})$을 따르고, 이 확률변수로부터 확률표본 $[X_{1}, X_{2}, ..., X_{n}]$를 뽑았다고 가정하자.

    ${(2)}$ 이 때, $\overline{x}$와 $S^{2}$은 각각 $\mu$와 $\sigma^{2}$에 대한 최대우도추정량이다.

    ${(3)}$ 스튜던트의 정리에 따라 $T = \frac{\overline{X} - \mu}{S/\sqrt{n}}$는 자유도 (n-1)의 T분포를 따른다. 이와 같이
    구간을 추정 가능케하는 $\theta$에 관한 대리 확률변수'피벗(Pivot) 확률변수' 라고 한다.

    ${(4)}$ 이를 이용하여 신뢰구간을 구하면 아래와 같다.
    $t_{\alpha/2, n-1}$을 자유도가 (n-1)인 t분포에서 상위 $(\alpha/2)$ 지점이라고 하자. 다시말해
    $$\frac{\alpha}{2} = P(T > t_{\alpha/2, n-1})$$ 이다.

    하한 L과 상한 U를 각각 다음과 같의 정의하자.

    -. L : $-t_{\alpha/2, n-1}$
    -. U : $t_{\alpha/2, n-1}$
    이 떄, L과 U를 이용하여 $(1-\alpha)$ 수준의 신뢰구간을 구하면

    $$(1-\alpha) = P(-t_{\alpha/2, n-1} < T < t_{\alpha/2, n-1})$$
    $$ = P(-t_{\alpha/2, n-1} < \frac{\overline{X} - \mu}{S/\sqrt{n}} < t_{\alpha/2, n-1}) $$
    $$ = P(-t_{\alpha/2, n-1} \cdot \frac{S}{\sqrt{n}} < \overline{X} - \mu < t_{\alpha/2, n-1} \cdot \frac{S}{\sqrt{n}}) $$

    가운데에 $\mu$만 남기고 부호를 반대로 바꿔 정리하면

    $$ = P(\overline{X} - t_{\alpha/2, n-1} \cdot \frac{S}{\sqrt{n}} <  \mu < \overline{X} + t_{\alpha/2, n-1}\cdot \frac{S}{\sqrt{n}})$$
    이것아 바로 신뢰수준 $(1-\alpha) * 100\%$의 신뢰구간이 된다.
    ${(5)}$ 물론, 이는 X가 정규분포라는 가정이 없어도 일반적으로 성립이 가능하다.(중심극한정리 참조)

    중심극한정리는 대수의 법칙 및 분포수렴에 대한 학습이 끝나야 증명할 수 있다.

    지금은 일단 정의만 짚고 넘어가면 중심극한정리는 아래와 같다.

    $[X_{1}, X_{2}, ..., X_{n}]$를 평균 $\mu$이고 분산$\sigma^{2}$인 임의의 확률변수 X에서 추출했다고 하자
    (정규분포 가정을 하지 않는다.)

    그러면 다음의 확률변수를 정의할 떄
    $$W = \frac{\overline{X} - \mu}{\sigma/\sqrt{n}}$$
    이 확률변수는 $n \rightarrow \infty$일때 $N(0,1)$로 수렴한다.

    그리고 이는 $\sigma$를 S로 대체하여도 동일하다.
    2) 평균의 차에 대한 신뢰구간
    ${(1)}$ 한 분포에 대한 신뢰구간이 아닌 두 분포에 대한 비교이다.

    ${(2)}$ X와 Y라는 각각의 확률변수를 정의하고, 두 확률변수가 각각 $\mu_{x}, \sigma_{x}$, $\mu_{y}, \sigma_{y}$를 평균을 갖는다고 하자.
    -. 평균에 대한 차이를 추정 가능케하는 피벗 확률변수는 아래와 같이 도출한다.
    두 평균의 차 $\Delta = \mu_{x} - \mu_{y}$ 라고 하자.

    이 때, 확률표본 $[X_{1}, ..., X_{n}]$, $[Y_{1}, ..., Y_{1}]$을 각각 추출하고,
    $\mu_{x}$, $\mu_{y}$에 대한 각각의 추정량인 $\overline{x}$, $\overline{y}$를 정의하면
    $\widehat{\Delta} = \overline{x} - \overline{y}$는 $\Delta$에 대한 불편추정량이 된다.

    한편, $\overline{x}$와 $\overline{y}$는 각각 $N(\mu, \frac{\sigma^{2}}{n})$을 따른다는 정리에 따라
    그 결합분산은 아래와 같이 구할 수 있다.
     
    $Var(\widehat{\Delta}) = \frac{\sigma_{x}^{2}}{n} + \frac{\sigma_{x}^{2}}{n}$ 

    바로 앞에서 언급한 중심극한정리를 응용하여 $$W = \frac{\overline{X} - \mu}{\sigma/\sqrt{n}}$$꼴로 정리하면
    $$ Z = \frac{\widehat{\Delta} - \Delta}{\sqrt{S_{x_{n}}^{2}/n_{1} + S_{y_{n}}^{2}/n_{1}}} $$
    는 N(0,1)을 따른다.

    Z가 바로 평균차에 대한 신뢰구간을 구할수 있게 하는 피벗 확률변수이다.

    -. 도출한 피벗 확률변수를 통해 신뢰구간을 정의하면
    $$(1-\alpha) = P(-z_{\alpha/2} < Z < z_{\alpha/2})$$
    $$ = P(-z_{\alpha/2} < Z = \frac{\widehat{\Delta} - \Delta}{\sqrt{S_{x_{n}}^{2}/n_{1} + S_{y_{n}}^{2}/n_{1}}} < z_{\alpha/2})$$
    $$ = P(-z_{\alpha/2} \cdot \sqrt{S_{x_{n}}^{2}/n_{1} + S_{y_{n}}^{2}/n_{1}} < \widehat{\Delta} - \Delta < z_{\alpha/2} \cdot \sqrt{S_{x_{n}}^{2}/n_{1} + S_{y_{n}}^{2}/n_{1}})$$
    $\widehat{\Delta} = \overline{x} - \overline{y}$로 환원하고, $\Delta$에 대한 식으로 정리하면
    $$ = P( \ (\overline{x} - \overline{y}) - z_{\alpha/2} \cdot\sqrt{S_{x_{n}}^{2}/n_{1} + S_{y_{n}}^{2}/n_{1}} < \Delta < (\overline{x} - \overline{y}) + z_{\alpha/2} \cdot\sqrt{S_{x_{n}}^{2}/n_{1} + S_{y_{n}}^{2}/n_{1}} \ )$$

    이것이 바로 $(1-\alpha)$의 신뢰수준을 갖는 평균의 차 $\Delta$에 대한 신뢰구간이다.

    ${(3)}$ 한편, 피벗 확률변수를 T분포를 이용하여 구할수도 있다.
    T분포는 $T = \frac{w}{\sqrt{v/r}}$ 임을 상기하자.

    이제 우리의 목표는 정규분포를 따르는 W카이제곱 분포를 따르는 V를 도출하는것이다.
    두 평균의 차 $\Delta = \mu_{x} - \mu_{y}$ 라고 하자.

    이 때, 확률표본 $[X_{1}, ..., X_{n}]$, $[Y_{1}, ..., Y_{1}]$을 각각 추출하고,
    $\mu_{x}$, $\mu_{y}$에 대한 각각의 추정량인 $\overline{x}$, $\overline{y}$를 정의하면
    $\widehat{\Delta} = \overline{x} - \overline{y}$는 $\Delta$에 대한 불편추정량이 된다.

    두 확률변수 X,Y가 동일한 분산 $\sigma^{2}$을 공유한다 가정한다.


    바로 앞에서 언급한 중심극한정리를 응용하여 $$W = \frac{\overline{X} - \mu}{\sigma/\sqrt{n}}$$꼴로 정리하면
    $$ W = \frac{(\overline{x} - \overline{y}) - (\mu_{X} - \mu_{Y})}{\sigma \sqrt{1/n_{x} + 1/n_{y}}} $$
    는 N(0,1)을 따른다.
    X에 대한 확률표본 $X_{n}$의 표준편차 $S_{x}$와 Y에 대한 확률표본 $Y_{n}$의 표준편차 $S_{y}$는
    스튜던트의 정리에 따라 각각 다음의 분포를 따른다.

    -. $S_{x} = \frac{(n_{x} - 1)S_{x}^{2}}{\sigma^{2}} \sim x^{2}(n_{x} - 1)$
    -. $S_{y} = \frac{(n_{y} - 1)S_{y}^{2}}{\sigma^{2}} \sim x^{2}(n_{y} - 1)$ 

    따라서, 카이제곱 분포의 가법성에 따라 두 확률변수의 가중평균은 아래의 분포를 따른다.

    $S_{p}^{2} = \frac{(n_{x} - 1)S_{x}^{2} + (n_{y} - 1)S_{y}^{2}}{n_{x} + n_{y} + 2}$ 일 때
    $$V = \frac{(n-2) S_{p}^{2}}{\sigma^{2}} \sim x^{2}(n-2)$$
    (단, $n = n_{x} + n_{y}$)
    이제, $T = \frac{w}{\sqrt{v/r}}$ 꼴로 이를 변환하면

    $$T = \frac{w}{\sqrt{v/r}}$$
    $$ = \frac{\frac{(\overline{x} - \overline{y}) - (\mu_{X} - \mu_{Y})}{\sigma \sqrt{1/n_{x} + 1/n_{y}}}}{\sqrt{\frac{(n-2) S_{p}^{2}}{(n-2)\sigma^{2}}}} \\ = \frac{(\overline{X} - \overline{Y}) - (\mu_{X} - \mu_{Y})}{S_{p}\sqrt{1/n_{x} + 1/n_{y}}}$$

     는 자유도 (n-2)의 t분포를 따른다.

    이것이 바로 t분포를 활용한 피벗 확률변수이다.

    -. 도출한 피벗 확률변수를 이용해 신뢰구간을 도출하면
    $$(1-\alpha) = P(-t_{\alpha/2, n-2} < T < t_{\alpha/2, n-2})$$
    $$ = P(-t_{\alpha/2, n-2} < \frac{(\overline{X} - \overline{Y}) - (\mu_{X} - \mu_{Y})}{S_{p}\sqrt{1/n_{x} + 1/n_{y}}} < t_{\alpha/2, n-2)}$$
    $$ = P(-t_{\alpha/2, n-2} \cdot S_{p}\sqrt{1/n_{x} + 1/n_{y}} < (\overline{X} - \overline{Y}) - (\mu_{X} - \mu_{Y}) < t_{\alpha/2, n-2)} S_{p}\sqrt{1/n_{x} + 1/n_{y}}$$
    $\mu_{X} - \mu_{Y}$에 대한 식으로 정리하면
    $$P((\overline{X} - \overline{Y}) - t_{\alpha/2, n-2} \cdot S_{p}\sqrt{1/n_{x} + 1/n_{y}} <  \mu_{X} - \mu_{Y} < (\overline{X} - \overline{Y}) + t_{\alpha/2, n-2)}\cdot S_{p}\sqrt{1/n_{x} + 1/n_{y}}$$
    이것이 바로 $(1-\alpha)$의 신뢰수준을 갖는 평균의 차 $\mu_{X} - \mu_{Y}$ 에 대한 신뢰구간이다.

    -. 일반적으로, T분포를 활용한 신뢰구간은 Z분포를 활용한 신뢰구간보다 더 넓다. 따라서 보통 통계학자들은 T분포를 활용한 구간 정의를 선호한다.

    3) 비율의 차에 대한 신뢰구간

    ${(1)}$ 중심극한정리에 의해 정규분포로 굳이 가정하지 않고서도 $$W = \frac{\overline{X} - \mu}{\sigma/\sqrt{n}}$$ 꼴의 확률변수는 정규분포로 수렴한다.

    ${(2)}$ 한편, 두 베르누이 분포 $X \sim b(1, p_{x})$와 $Y \sim b(1, p_{y})$에서 각각 추출한 확률표본 $X_{n}$과 $Y_{n}$을 정의하자.

    -. 베르누이 분포비율에 대한 모수 $p_{x}$, $p_{y}$의 불편추정량은 전체 사례 중 성공인 사례의 비율, 다시 말해 각각의 평균 $\overline{x} = \frac{\sum{x_{n}}}{n}$와 $\overline{y} = \frac{\sum{y_{n}}}{n}$와 동일하다.

    -. 따라서, 기본적으로 비율의 차는 위에서 계속 논의한 평균의 차에 의한 신뢰구간을 구하는것과 동일한 문제이다.

    -. 따라서, z분포에 따른 피봇 확률변수는 $$ Z = \frac{(\widehat{p_{x}} - \widehat{p_{y}}) - (p_{x} - p_{y})}{\sqrt{\frac{\widehat{p_{x}}(1 - \widehat{p_{x}})}{n_{x}} + \frac{\widehat{p_{y}}(1 -\widehat{p_{y}})}{n_{y}}}} $$ 이다.

    -. 위 피봇 확률변수를 이용하여 신뢰구간을 구하면 $$ = P( \ (\widehat{p_{x}} - \widehat{p_{y}}) - z_{\alpha/2} \cdot\sqrt{\frac{\widehat{p_{x}}(1 - \widehat{p_{x}})}{n_{x}} + \frac{\widehat{p_{y}}(1 -\widehat{p_{y}})}{n_{y}}} < p_{x} - p_{y} < (\overline{x} - \overline{y}) + z_{\alpha/2} \cdot \sqrt{\frac{\widehat{p_{x}}(1 - \widehat{p_{x}})}{n_{x}} + \frac{\widehat{p_{y}}(1 -\widehat{p_{y}})}{n_{y}}} \ )$$

    이다.

'수리통계' 카테고리의 다른 글

22. 분위수와 Q-Q plot  (0) 2023.06.30
21. 순서통계량  (0) 2023.06.29
19. 우도와 최대우도추정량  (0) 2023.06.27
18. 확률표본과 모수, 그리고 통계량  (0) 2023.06.26
17-1 스튜던트의 정리  (0) 2023.06.23