Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 프로그래머를 위한 선형대수 #선형대수 #행렬계산
- 프로그래머를 위한 선형대수 #선형대수 #고유분해 #고윳값 #고유벡터
- 프로그래머를 위한 선형대수 #선형대수 #LU분해
- 미적분 #평균값 정리 #로피탈의 정리 #접선의 방정식
- mmm
- bayesian
- Media Mix Modeling
- 미적분 #사인과 코사인의 도함수
- 미적분 #접선의 방정식 #최적화 #뉴턴법 #뉴턴-랩슨법
- Marketing Mix Modeling
- lightweightmmm
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #고유분해
- 미적분
- bayesian inference
- 수리통계
- 시계열분석 #Time-Series Analysis #이상탐지 #Anomaly Detection #Spectral Residual #CNN #SR-CNN
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #야코비 회전법 #QR법 #하우스홀더반사 #행렬회전
- Optimization
Archives
- Today
- Total
문과생 네버랜드의 데이터 창고
39. 통계학적 2차형식(Quadratic Form) 본문
-
2차형식이란?
1) 수학에서 2차형식이란 항이 모두 2차인 동차 다항식을 의미한다.
${(1)}$ 예를 들면 아래와 같은 경우이다.
$$4x^{2} + 2xy - 3y^{2}$$
-. 위 다항식의 경우, 변수 x와 y에 대하여 2차 형식이다.
2) 구체적으로는, 이차형식은 아래와 같은 형태로 나타낼 수 있는 형태를 의미한다.
${(1)}$ 선형결합 형식으로 나타낼 때-. $q_{A}(x_{1}, \dots x_{n}) = \sum_{i=1}^{n}\sum_{j=1}^{n}a_{ij}x_{i}x_{j}$
${(2)}$ 행렬 형식으로 나타낼 때-. $q_{A}(x_{1}, \dots, x_{n}) = x^{T}Ax$
-. $A = P^{T} \Lambda P$에서 행렬 $\Lambda$의 대각성분(=고윳값 성분)의 형태에 따라 연산의 성질이 달라진다.
-. 특히, 고윳값이 모두 0 초과의 양수인 경우 양의 정부호 행렬이라 칭하며 통계학적으로 중요하게 다뤄진다. - 통계학에서의 2차형식
1) 분산-공분산 행렬
${(1)}$ 분산-공분산 행렬은 대표적인 2차형식으로 해석할 수 있다.
-. 선형결합 형식으로 나타낼 경우
$$\sum_{i=1}^{n}(x_{i} - \overline{x})^{2} = \sum_{i=1}^{n}(x_{i} - \frac{\sum_{j=1}^{n} x_{j}}{n})^{2} = \sum_{i=1}^{n}(x_{i}^{2} + 2\overline{x}x_{i} + \overline{x}^{2}) \\ = \sum_{i=1}^{n}x_{i}^{2} - 2\sum_{i=1}^{n}\sum_{j=1}^{n}\frac{x_{j}}{n}x_{i} + n\sum_{i=1}^{n}\frac{\sum_{j=1}^{n}x_{j}^{2}}{n^{2}} \\ = \frac{n-1}{n}\sum_{i=1}^{n}x_{i}^{2} + \frac{2}{n}\sum_{i=1}^{n}\sum_{j=1}^{n}x_{i}x_{j}$$
모든 항이 2차인 동차 다항식이기 때문에, 정의에 따라 이는 2차형식이 된다.
-. 행렬형식으로 나타낼 경우
$X = [x_{i} - \mu]$ 라는 벡터에 대하여 분산-공분산 행렬은
$$\Sigma = X^{T} I X$$로 나타낼 수 있다.
따라서 이는 2차형식이다.
2) 정규분포의 2차형식 확률변수의 선형결합
${(1)}$ 정규분포의 2차 형식인 확률변수들의 선형결합은 카이제곱분포의 가법성을 따른다.
$[X_{i}, \dots, X_{n}]$을 $N(\mu_{i}, \sigma^{2})$를 각각 따르는 서로 독립인 확률변수라고 하자.
$Q_{i}$를 다음의 실2차형태라고 정의하자.
$$ Q_{i} = X_{i}^{T} I X_{i}, (i = 1,\dots,n)$$
이 2차형태의 선형결합을 다음과 같이 정의하자
$$Q = Q_{1} + Q_{2} + \dots + Q_{k-1} + Q_{k}$$
이 때, 다음은 참이다.
① $\frac{Q}{\sigma^{2}} \sim X^{2}(r)$ 이다.
$\frac{Q_{k}}{\sigma^{2}}$는 $r_{k} = r-(r_{1}+\dots+r_{k-1})$에 대하여
② $\frac{Q_{k}}{\sigma^{2}} \sim X^{2}(r_{k})$ 이다
3) F분포의 도출
${(1)}$ 2차 형식의 정의를 가져와서 F분포를 도출하는데 활용할 수 있다.어떤 실현값들의 행렬을 다음과 같이 정의하자.
$A = \begin{bmatrix}
X_{11} && X_{12} && \dots && X_{1n} \\
\vdots && \ddots && \ddots && \vdots \\
\end{bmatrix}$
이 때, 각 실현값이 따르는 확률변수 $X_{ij}$는 서로 독립인 확률변수들이다.
-. 열 차원의 도출
이 때, 이 데이터 행렬의 열의 평균벡터를 정의하면 다음과 같이 나타낼 수 있다.
$$\overline{x}_{cn} = \begin{bmatrix} \overline{x}_{.1} \\ \overline{x}_{.2} \\ \vdots \\ \overline{x}_{.b} \end{bmatrix} = \begin{bmatrix} \frac{x_{11}+x_{21} + \dots + x_{a1}}{a} \\ \frac{x_{12} + x_{22} + \dots + x_{a2}}{a} \\ \vdots \\ \frac{x_{1b}+x_{2b} + \dots + x_{ab}}{a} \end{bmatrix} = \begin{bmatrix}\frac{\sum_{i=1}^{a}x_{i1}}{a} \\ \frac{\sum_{i=1}^{a}x_{i2}}{a} \\ \frac{\sum_{i=1}^{a}x_{ib}}{a}\end{bmatrix}$$
이 때, 크기 $n = ab$인 확률표본의 분산 $S^{2}$은 다음과 같이 정리할 수 있다.
$$S^{2} = \frac{\sum_{i=1}^{a}\sum_{j=1}^{b}(x_{ij}-\overline{x})^{2}}{ab-1}$$
분모를 좌변으로 이항하면
$$(ab-1)S^{2} = \sum_{i=1}^{a}\sum_{j=1}^{b}(x_{ij}-\overline{x})^{2}$$
$(x_{ij}-\overline{x})^{2} = [(x_{ij} - \overline{x}_{i}) + (\overline{x_{i}} - \overline{x})]^{2}$으로 분리하면
$$\sum_{i=1}^{a}\sum_{j=1}^{b}[(x_{ij} - \overline{x}_{i}) + (\overline{x_{i}} - \overline{x})]^{2} \\ = \sum_{i=1}^{a}\sum_{j=1}^{b}[(x_{ij} - \overline{x}_{i})^{2} + \sum_{i=1}^{a}\sum_{j=1}^{b}(\overline{x_{i}} - \overline{x})]^{2} + 2\sum_{i=1}^{a}\sum_{j=1}^{b}(x_{ij}-\overline{x}_{i})(\overline{x}_{i}-\overline{x})$$
이 때, 각 항별로 각각 정리하면
① $\sum_{i=1}^{a}\sum_{j=1}^{b}(x_{ij}-\overline{x}_{i})(\overline{x}_{i}-\overline{x}) = \sum_{i=1}^{a}[(\overline{x}_{i}-\overline{x})\sum_{j=1}^{b}(x_{ij}-\overline{x}_{i})]$ 에서, $\sum_{j=1}^{b}(x_{ij}-\overline{x}_{i}) = 0$ 이므로 이 항은 소거된다.
② $\sum_{i=1}^{a}\sum_{j=1}^{b}(\overline{x_{i}} - \overline{x})^{2} = b\sum_{i=1}^{a}(\overline{x_{i}} - \overline{x})^{2}$
위 정리 결과를 하나로 합치면
$(ab-1)S^{2} = \sum_{i=1}^{a}\sum_{j=1}^{b}(x_{ij}-\overline{x}_{i}) + b\sum_{i=1}^{a}(\overline{x}_{i}-\overline{x})^{2}$
이를 2차형식으로 나타내자. 즉
$$Q = Q_{1} + Q_{2}$$
이제, 여기에 대하여 각각의 항을 $\sigma^{2}$으로 나누자. 즉
$$\frac{Q}{\sigma^{2}} = \frac{Q_{1}}{\sigma^{2}} + \frac{Q_{2}}{\sigma^{2}}$$
이 때,
① $\frac{Q}{\sigma^{2}}$는 $\frac{(ab-1)S^{2}}{\sigma^{2}}$인데,
이는 스튜턴트의 정리에 따르면 $X^{2}(ab-1)$의 카이제곱 분포를 따른다.
② $\frac{Q_{1}}{\sigma^{2}}$는 $\sum_{i=1}^{a}[\sum_{j=1}^{b}\frac{(x_{ij}-\overline{x}_{i})^{2}}{\sigma^{2}}]$ 는 $X^{2}(b-1)$의 a개의 선형결합과 같다.
따라서, 카이제곱 분포의 가법성에 따라 $\sum_{i=1}^{a} X^{2}(b-1) \sim X^{2}(a(b-1))$
위에서 정의한 <정규분포의 2차형식 확률변수의 선형결합>에 따라 $Q_{2}$는 $r_{2} = r - r_{1}$이므로
$$Q_{2} \sim X^{2}(ab - 1 - a(b-1) = a-1)$$ 이다.
-. 행차원의 도출
위 전개와 마찬가지로, 행 평균벡터를 다음과 같이 정의한다.
$$\overline{x}_{cr} = \begin{bmatrix} \overline{x}_{1.} \\ \overline{x}_{2.} \\ \vdots \\ \overline{x}_{a.} \end{bmatrix} = \begin{bmatrix} \frac{x_{11}+x_{12} + \dots + x_{1b}}{b} \\ \frac{x_{21} + x_{22} + \dots + x_{2b}}{b} \\ \vdots \\ \frac{x_{a1}+x_{a2} + \dots + x_{ab}}{b} \end{bmatrix} = \begin{bmatrix}\frac{\sum_{i=1}^{b}x_{1i}}{b} \\ \frac{\sum_{i=1}^{b}x_{2i}}{b} \\ \dots \\ \frac{\sum_{i=1}^{b}x_{ai}}{b}\end{bmatrix}$$
열차원에서의 논의를 그대로 따라가서 다음을 도출했다 하자
$(ba-1)S^{2} = \sum_{i=1}^{a}\sum_{j=1}^{b}(x_{ij}-\overline{x}_{j}) + a\sum_{j=1}^{b}(\overline{x}_{j}-\overline{x})^{2}$
이를 2차형식으로 나타내자. 즉
$$Q = Q_{3} + Q_{4}$$
마찬가지로 Q는 $X^{2}(ba-1)$을 따르고
$Q_{3} \sim X^{2}(b(a-1))$
$Q_{4} \sim X^{2}(ba - 1 - b(a-1) = b-1)$ 이다.
-. 2차형식의 결합
전체평균에 대하여 카이제곱 분포꼴로 표현하면
$$\overline{x} = \frac{X_{11} + X_{12} + \dots + X_{ab}}{ab} = \frac{\sum_{i=1}^{a}\sum_{j=1}^{b}x_{ij}}{ab}$$
한편, $(ab-1)S^{2}$을 구할 때 반복적으로 도출되었던 $(X_{ij} - \overline{X})$를 각각 행평균과 열평균인 $\overline{x}_{nr}$, $\overline{x}_{cn}$, 그리고 전체평균 $\overline{x}$로 나타내면
$$(X_{ij} - \overline{X}) = (\overline{X}_{nr} - \overline{X}) + (\overline{X}_{cn} - \overline{X}) + (X_{ij} - \overline{X}_{nr} - \overline{X}_{cn} + \overline{X})$$
따라서
$$(ab-1)S^{2} = b\sum_{i=1}^{a}(\overline{X}_{i.} - \overline{X})^{2} + a\sum_{j=1}^{b}(\overline{X}_{.j} - \overline{X})^{2} + \sum_{i=1}^{a}\sum_{j=1}^{b}(X_{ij} - \overline{X}_{i.} - \overline{X}_{.j} + \overline{X})^{2}$$
이를 이차형식으로 표현하면
$$Q = Q_{2} + Q_{4} + Q_{5}$$
이 때, $Q \sim X^{2}(ab-1)$, $Q_{2} \sim X^{2}(a-1)$이고, $Q_{4} \sim X^{2}(b-1)$ 이므로
$Q_{5} \sim X^{2}(ab-1 - a + 1 - b + 1 = (a-1)(b-1))$을 따른다.
한편, $X_{ij}$는 모두 독립임을 가정하였으므로, 그 2차형식도 마찬가지로 서로 독립이다.
다음과 같은 비율을 정리하자
$$\frac{Q_{4}}{Q_{3}} = \frac{Q_{4}/\sigma^{2}(b-1)}{Q_{3}/\sigma^{2}(a-1)} \sim F(b-1, b(a-1))$$
$$\frac{Q_{4}}{Q_{5}} = \frac{Q_{4}/\sigma^{2}(b-1)}{Q_{3}/\sigma^{2}((a-1)(b-1))} \sim F(b-1, (a-1)(b-1))$$
은 각각의 자유도를 가지는 F-분포를 따른다.
'수리통계' 카테고리의 다른 글
39-1. 비중심 카이스퀘어 분포와 F분포 (0) | 2023.07.31 |
---|---|
40. 일원배치 분산분석 (0) | 2023.07.30 |
38. 최소최대문제와 분류문제(with 선형판별분석) (0) | 2023.07.27 |
37. 축차확률비 검정 (0) | 2023.07.27 |
36. 최강력 검정 (0) | 2023.07.26 |