문과생 네버랜드의 데이터 창고

22. 분위수와 Q-Q plot 본문

수리통계

22. 분위수와 Q-Q plot

K JI 2023. 6. 30. 16:27
  1. 분위수란?

    1) 앞서 우리는 확률변수 $[X_{1}, ..., X_{n}]$를 크기 순서대로 정렬하여 추론을 수행하는 순서통계량에 대해 알아보았다.

    ${(1)}$ 이제 떠올려볼 수 있는 자연스러운 다음 단계는, 순서를 구할수 있었으니 그 순서를 이용하여 확률변수들을 단계로서 구분지을 수 있는 구간값을 구하는 것이다.

    -. 예를 들어, 우리나라 복지제도에서 수급 대상자를 선정하는 주요 기준인 중위수(Median)는 우리나라 모든 국민 가구를 순서대로 정렬하였을 때 정확히 중간에 있는 사람의 소득을 의미한다.

    2) 분위수의 정의와 공식
    ${(1)}$ X를 연속형 누적확률함수(CDF) $F(x)$를 갖는 확률변수라고 하자.
    -.  이 때,  $0 < p < 1$에 대하여 p순위 분위수다음과 같이 정의한다.
    $$ p_{분위수} = F^{-1}(P) $$
    -. 이 공식은 예를 들어 0.5 분위수를 구하겠다고 하면, 누적 확률적으로 0.5 지점에 속하는 확률변수 X를 역으로 도출하겠단 의미이다.

    ${(2)}$ 기댓값을 이용해 공식을 도출하면 다음과 같이 구할 수 있다.
    -. 확률표본 $[X_{1}, ..., X_{n}]$의 순서통계량 $[Y_{1}, ..., Y_{k},..., Y_{n}]$이 있다고 가정하자.
    -. 이 때, k가 바로 도출하기를 원하는 p순위에 해당하는 값이라고 하자.
    -. 이 때, $Y_{k}$에 대한 추론을 수행하기 위해 그 기댓값을 구하면
    $$ E(F(y_{k})) = \int_{a}^{b} F(y_{k})g_{k}(y_{k})dy_{k}$$

    -. 한편, $g_{k}$는 아래와 같이 정의할 수 있다.
    $$ g_{k}(y_{k}) = \frac{n!}{(k-1)!(n-k)!}[F(y_{k})]^{k-1}[1-F(y_{k})]^{n-k}f(y_{k}) $$

    -.$F(Y_{k}) = u$로 치환하면, 그 야코비안 $|J| =  \frac{du}{dY_{k}} = f(y_{k})$에서 $du = f(y_{k})dy_{k}$ 이므로, 이를 이용하여 치환을 수행하면
    $$ \int_{a}^{b} F(y_{k})g_{k}(y_{k})dy_{k} = \int_{a}^{b} \frac{n!}{(k-1)!(n-k)!}  [F(y_{k})]^{k}[1-F(y_{k})]^{n-k}f(y_{k})dy_{k} $$
    $$ = \int_{a}^{b} \frac{n!}{(k-1)!(n-k)!} [F(y_{k})]^{k}[1-F(y_{k})]^{n-k}f(y_{k})dy_{k} \\ = \int_{a}^{b} \frac{n!}{(k-1)!(n-k)!} (u)^{k}(1-u)^{n-k}du$$

    -. 한편, 도출한 식에서 적분을 제외한 부분과 베타분포의 pdf를 비교해보면 
    베타 분포 pdf $\frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)}y_{2}^{\alpha-1}(1-y_{2})^{\beta-1}$
    적분 제외 도출식 $\frac{n!}{(k-1)!(n-k)!}(u)^{k}(1-u)^{n-k}$
    이는 $\alpha = k$, $\beta = n-k$인 베타분포와 동일하다는것을 알 수 있다.
    -. 베타분포의 기댓값을 이용하면
    $$E(F(y_{k})) = \frac{k}{n+1}$$ 이다. 그리고 이것을 바로 p순위 표본분위수 라고 부른다.

  2. Q-Q plot  
    1) X의 CDF $F(X)$는 알려졌으나 정작 모수 $(\alpha,\beta)$ 는 알려져있지 않았다고 가정하자.
    ${(1)}$ 한편, X를 이용한 변환 확률변수 Z를 다음과 같이 정의하자
    $$ Z = \frac{x - \alpha}{\beta} $$
    -. 이 때, 확률변수 Z 또한 CDF를 가지며, 이 CDF는 확률변수 X를 이용해 기재하면 다음과 같다.
    $$ CDF z = F(\frac{x-\alpha}{\beta}) $$

    ${(2)}$ 다음의 통계량을 가정하자.
    -. $\xi_{X,p}$ : X에 대한 p분위수
    -. $\xi_{Z,p}$ : Z에 대한 p분위수

    ${(3)}$ 만약에 두 확률변수 X와 Z가 선형적인 관계를 갖는다가설이라면 각 통계량간에는 아래와 같은 관계가 성립된다.
    $$p = P(X \leq \xi_{X,p}) = P(Z \leq \frac{\xi_{X,p} - \alpha}{\beta}) $$
    $$또한$$
    $$ \xi_ {X,p} = \beta \xi_{Z,p} + \alpha $$

    ${(4)}$ 한편, 분위수 $p = \frac{k}{n+1}$ 임을 앞에서 이미 도출하였으므로, 이제 다음의 실험을 계획해볼 수 있다.

    -. 만약, 어떤 시스템이 우리가 가정한대로 선형적인 관계를 맺고 있다면, 두 변수를 연결하는 방정식 내부에 2,...,n차의 (오차)항이 존재하지 않는다. 즉 최대 1차로만 이루어져 있는 선형 방정식을 가진다.

    -. 따라서, X와 Z가 선형적인 관계를 맺고 있다면 $(\xi_{Z,p})^{n}$ (단, $n \geq 2$)로 표현되는 (오차)항이 방정식에 포함되어 있지 않다는 의미이다. 그래프로 시각화했을 때 그 선은 (어느 정도) 구부러짐 없이 선형적인 형태를 띄고 있을 것이라는 점을 유추할 수 있다.

    (그래프에서 구부러짐을 보인다는 것은 다시 말해 해당 방정식 내부에 2차 이상의 $(\xi_{Z,p})^{n}$의 항이 포함되어 있다는 점을 암시하기 때문이다)

    ${(5)}$ 이처럼, X와 Z의 각 분위수별 표본값을 토대로 2차원 평면상에서 시각화하여 분포의 일치도를 확인하는 방법론을 q-q plot이라고 부른다.
    $\xi_{Z,p} \frac{\xi_{X,p} + \alpha}{\beta}$를 계산한 결과가
    서로간에 선형관계를 맺고 있다.
    $\xi_{Z,p} \frac{\xi_{X,p} + \alpha}{\beta}$를 계산한 결과가
    비선형적인 형태를 보인다.

    이는 $\xi_ {X,p} = \beta \xi_{Z,p} + \alpha$ 형태의 선형 방정식으로
    모델링에 실패했다는 의미이며,
    내부에 2차 이상의 오차항 $\varepsilon^{n}$이 존재함을 의미한다.

'수리통계' 카테고리의 다른 글

23-1 단측검정에서 양측검정으로 일반화  (0) 2023.07.05
23. 가설검정  (0) 2023.07.03
21. 순서통계량  (0) 2023.06.29
20. 신뢰구간  (0) 2023.06.28
19. 우도와 최대우도추정량  (0) 2023.06.27