Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #고유분해
- 미적분
- bayesian
- 미적분 #접선의 방정식 #최적화 #뉴턴법 #뉴턴-랩슨법
- Media Mix Modeling
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #야코비 회전법 #QR법 #하우스홀더반사 #행렬회전
- 미적분 #평균값 정리 #로피탈의 정리 #접선의 방정식
- 시계열분석 #Time-Series Analysis #이상탐지 #Anomaly Detection #Spectral Residual #CNN #SR-CNN
- Marketing Mix Modeling
- 프로그래머를 위한 선형대수 #선형대수 #고유분해 #고윳값 #고유벡터
- 프로그래머를 위한 선형대수 #선형대수 #LU분해
- bayesian inference
- Optimization
- 미적분 #사인과 코사인의 도함수
- 수리통계
- mmm
- 프로그래머를 위한 선형대수 #선형대수 #행렬계산
- lightweightmmm
Archives
- Today
- Total
문과생 네버랜드의 데이터 창고
22. 분위수와 Q-Q plot 본문
-
분위수란?
1) 앞서 우리는 확률변수 $[X_{1}, ..., X_{n}]$를 크기 순서대로 정렬하여 추론을 수행하는 순서통계량에 대해 알아보았다.
${(1)}$ 이제 떠올려볼 수 있는 자연스러운 다음 단계는, 순서를 구할수 있었으니 그 순서를 이용하여 확률변수들을 단계로서 구분지을 수 있는 구간값을 구하는 것이다.
-. 예를 들어, 우리나라 복지제도에서 수급 대상자를 선정하는 주요 기준인 중위수(Median)는 우리나라 모든 국민 가구를 순서대로 정렬하였을 때 정확히 중간에 있는 사람의 소득을 의미한다.
2) 분위수의 정의와 공식
${(1)}$ X를 연속형 누적확률함수(CDF) $F(x)$를 갖는 확률변수라고 하자.
-. 이 때, $0 < p < 1$에 대하여 p순위 분위수는 다음과 같이 정의한다.
$$ p_{분위수} = F^{-1}(P) $$
-. 이 공식은 예를 들어 0.5 분위수를 구하겠다고 하면, 누적 확률적으로 0.5 지점에 속하는 확률변수 X를 역으로 도출하겠단 의미이다.
${(2)}$ 기댓값을 이용해 공식을 도출하면 다음과 같이 구할 수 있다.
-. 확률표본 $[X_{1}, ..., X_{n}]$의 순서통계량 $[Y_{1}, ..., Y_{k},..., Y_{n}]$이 있다고 가정하자.
-. 이 때, k가 바로 도출하기를 원하는 p순위에 해당하는 값이라고 하자.
-. 이 때, $Y_{k}$에 대한 추론을 수행하기 위해 그 기댓값을 구하면
$$ E(F(y_{k})) = \int_{a}^{b} F(y_{k})g_{k}(y_{k})dy_{k}$$
-. 한편, $g_{k}$는 아래와 같이 정의할 수 있다.
$$ g_{k}(y_{k}) = \frac{n!}{(k-1)!(n-k)!}[F(y_{k})]^{k-1}[1-F(y_{k})]^{n-k}f(y_{k}) $$
-.$F(Y_{k}) = u$로 치환하면, 그 야코비안 $|J| = \frac{du}{dY_{k}} = f(y_{k})$에서 $du = f(y_{k})dy_{k}$ 이므로, 이를 이용하여 치환을 수행하면
$$ \int_{a}^{b} F(y_{k})g_{k}(y_{k})dy_{k} = \int_{a}^{b} \frac{n!}{(k-1)!(n-k)!} [F(y_{k})]^{k}[1-F(y_{k})]^{n-k}f(y_{k})dy_{k} $$
$$ = \int_{a}^{b} \frac{n!}{(k-1)!(n-k)!} [F(y_{k})]^{k}[1-F(y_{k})]^{n-k}f(y_{k})dy_{k} \\ = \int_{a}^{b} \frac{n!}{(k-1)!(n-k)!} (u)^{k}(1-u)^{n-k}du$$
-. 한편, 도출한 식에서 적분을 제외한 부분과 베타분포의 pdf를 비교해보면베타 분포 pdf $\frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)}y_{2}^{\alpha-1}(1-y_{2})^{\beta-1}$ 적분 제외 도출식 $\frac{n!}{(k-1)!(n-k)!}(u)^{k}(1-u)^{n-k}$
-. 베타분포의 기댓값을 이용하면
$$E(F(y_{k})) = \frac{k}{n+1}$$ 이다. 그리고 이것을 바로 p순위 표본분위수 라고 부른다. - Q-Q plot
1) X의 CDF $F(X)$는 알려졌으나 정작 모수 $(\alpha,\beta)$ 는 알려져있지 않았다고 가정하자.
${(1)}$ 한편, X를 이용한 변환 확률변수 Z를 다음과 같이 정의하자
$$ Z = \frac{x - \alpha}{\beta} $$
-. 이 때, 확률변수 Z 또한 CDF를 가지며, 이 CDF는 확률변수 X를 이용해 기재하면 다음과 같다.
$$ CDF z = F(\frac{x-\alpha}{\beta}) $$
${(2)}$ 다음의 통계량을 가정하자.
-. $\xi_{X,p}$ : X에 대한 p분위수
-. $\xi_{Z,p}$ : Z에 대한 p분위수
${(3)}$ 만약에 두 확률변수 X와 Z가 선형적인 관계를 갖는다는 가설이 참이라면 각 통계량간에는 아래와 같은 관계가 성립된다.
$$p = P(X \leq \xi_{X,p}) = P(Z \leq \frac{\xi_{X,p} - \alpha}{\beta}) $$
$$또한$$
$$ \xi_ {X,p} = \beta \xi_{Z,p} + \alpha $$
${(4)}$ 한편, 분위수 $p = \frac{k}{n+1}$ 임을 앞에서 이미 도출하였으므로, 이제 다음의 실험을 계획해볼 수 있다.
-. 만약, 어떤 시스템이 우리가 가정한대로 선형적인 관계를 맺고 있다면, 두 변수를 연결하는 방정식 내부에 2,...,n차의 (오차)항이 존재하지 않는다. 즉 최대 1차로만 이루어져 있는 선형 방정식을 가진다.
-. 따라서, X와 Z가 선형적인 관계를 맺고 있다면 $(\xi_{Z,p})^{n}$ (단, $n \geq 2$)로 표현되는 (오차)항이 방정식에 포함되어 있지 않다는 의미이다. 그래프로 시각화했을 때 그 선은 (어느 정도) 구부러짐 없이 선형적인 형태를 띄고 있을 것이라는 점을 유추할 수 있다.
(그래프에서 구부러짐을 보인다는 것은 다시 말해 해당 방정식 내부에 2차 이상의 $(\xi_{Z,p})^{n}$의 항이 포함되어 있다는 점을 암시하기 때문이다)
${(5)}$ 이처럼, X와 Z의 각 분위수별 표본값을 토대로 2차원 평면상에서 시각화하여 분포의 일치도를 확인하는 방법론을 q-q plot이라고 부른다.$\xi_{Z,p} \frac{\xi_{X,p} + \alpha}{\beta}$를 계산한 결과가
서로간에 선형관계를 맺고 있다.$\xi_{Z,p} \frac{\xi_{X,p} + \alpha}{\beta}$를 계산한 결과가
비선형적인 형태를 보인다.
이는 $\xi_ {X,p} = \beta \xi_{Z,p} + \alpha$ 형태의 선형 방정식으로
모델링에 실패했다는 의미이며,
내부에 2차 이상의 오차항 $\varepsilon^{n}$이 존재함을 의미한다.
'수리통계' 카테고리의 다른 글
23-1 단측검정에서 양측검정으로 일반화 (0) | 2023.07.05 |
---|---|
23. 가설검정 (0) | 2023.07.03 |
21. 순서통계량 (0) | 2023.06.29 |
20. 신뢰구간 (0) | 2023.06.28 |
19. 우도와 최대우도추정량 (0) | 2023.06.27 |