일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 프로그래머를 위한 선형대수 #선형대수 #행렬계산
- 시계열분석 #Time-Series Analysis #이상탐지 #Anomaly Detection #Spectral Residual #CNN #SR-CNN
- 미적분 #접선의 방정식 #최적화 #뉴턴법 #뉴턴-랩슨법
- Optimization
- 프로그래머를 위한 선형대수 #선형대수 #LU분해
- bayesian inference
- bayesian
- 미적분
- mmm
- Marketing Mix Modeling
- lightweightmmm
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #고유분해
- 미적분 #사인과 코사인의 도함수
- Media Mix Modeling
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #야코비 회전법 #QR법 #하우스홀더반사 #행렬회전
- 프로그래머를 위한 선형대수 #선형대수 #고유분해 #고윳값 #고유벡터
- 수리통계
- 미적분 #평균값 정리 #로피탈의 정리 #접선의 방정식
- Today
- Total
목록전체 글 (99)
문과생 네버랜드의 데이터 창고

단변량에서 다변량으로 확장 1) 다중 모수에서의 우도비 검정 ${(1)}$ $\theta = [\theta_{1}, \theta_{2}, \dots, \theta_{n}]$인 모수 벡터 $\theta$를 정의하자. -. 이 때, 특정 모수에 대하여 연구자가 다음의 가설을 내세웠다고 하자. $[\theta_{1}, \dots, \theta_{p}]$라는 $\theta$에 부분집합에 대하여 다음은 참일 것이다 $\theta_{1} = \widehat{\theta}_{0} / , \dots, / \theta_{n-p} = \widehat{\theta}_{p}$ ${(2)}$ 이와 같이 모수에 대해 어떤 주장을 내세움으로서, 모수 공간 전체에 어떤 영향을 미칠 수 있다. -. 다중 모수(중 일부)에 대하여 어떤..
단변량에서 다변량 MLE로 확장 1) 단변량에서 최대우도추정량을 구하는 방법을 살펴보았다. 2) 이제, 이 방법론을 다변량에 대해서 구하는 방법으로 확장한다. 다변량 모수의 최대우도추정 1) $[X_{1}, \dots X_{n}]$을 공통 pdf $f(X;\theta)$를 갖는 i.i.d라고 하자. 2) 그 우도함수와 로그우도함수는 다음과 같이 나타낼 수 있다. ${(1)}$ 우도함수 $$ L(\theta) = \prod_{i=1}^{n} f(x_{i};\theta) $$ ${(2)}$ 로그우도함수 $$l(\theta) = \sum_{i=1}^{n} log f(x_{i};\theta)$$ 3) 이 때, 우리가 알고있는 모수의 집합 $[\theta_{1}, \dots, \theta_{n}]$ 에 대하여 다..
최대우도법과 우도비검정 1) 최대우도법이란 ${(1)}$ 최대우도추정량에서 우도를 다음과 같이 설명하였다. 우도(혹은 가능도, likelihood)란, 확률표본들의 실현값들이 주어졌을때(즉, 우리가 관찰 가능한 데이터가 주어졌을 때) 이 데이터가 특정 모수를 가진 분포에서 나왔을 척도를 나타낸다. 모수 $\theta$를 따르는 확률변수 X에서 추출한 확률표본 $[X_{1}, X_{2}, ..., X_{n}]$의 결합분포의 pdf를 아래와 같이 정의하자. $$\prod_{i=1}^{n}f(x_{i};\theta)$$ 이 때, 우도함수 $L(\theta)$는 아래와 같이 정의 가능하다 $$L(\theta) = \prod_{i=1}^{n}f(\theta;x_{i})$$ 모수 $\theta$와 $x_{i}$의 ..
라오-크래머 하한 부등식 1) 불편추정량의 질을 어떻게 측정할 것인가? ${(1)}$ 불편추정량을 다음과 같이 정의하였다. 이때, 통계량과 모수를 연결짓는 징검다리로서 불편추정량이란 개념이 등장한다. ${(1)}$ 불편추정량의 개념은 아래와 같다. -. 모수 $\theta$를 갖는 $pdf(f; \theta)$를 가지는 확률변수 X를 정의하자. -. 이 때, X에서 독립적으로 추출한(i.i.d) 확률표본 $[X_{1},X_{2}, ..., X_{n}]$를 정의하자. -. 이 확률표본을 이용한 통계량 $T = T([X_{1},X_{2}, ..., X_{n}])$를 정의하자. -. 이 때, 이 통계량의 기댓값 $E(T) = \theta$, 즉 그 기댓값이 모수와 같을경우 T를 $\theta$의 불편추정량 이..

노름이란? 1) 벡터 공간에서 정의되는 함수로, 벡터의 성질을 어떤 실수(Real Number)로 변환하는 함수를 의미한다. ${(1)}$ 예를 들어, 유클리드 공간에서 정의되는 L2-Norm은 벡터의 직선 크기를 의미한다. L2 Norm의 예시 3차원 공간에서 정의된 벡터 X에 대해 '최단 거리 크기'를 알고 싶다면 L2 Norm을 사용한다. 그 크기는 0보다 큰 실수인 $\sqrt{3}$이다. 2) 엄밀한 수학적 정의는 다음과 같이 내릴 수 있다. 벡터 공간 V에서, Norm X는 $X \rightarrow \mathbb{R}^{1}$을 수행하는 실함수(real-valued Function)이다. Norm 함수를 p라고 할때, Norm은 다음의 세가지 조건을 만족해야한다 -. 삼각 부등식 : 모든 $..

중심극한정리의 다변량 확장 1) 단변량에서 중심극한정리를 살펴보았다. -. 한편, 단변량 정규분포가 존재하는가 하면, 이를 다변량에 대하여 일반화한 다변량 정규분포 또한 존재하였다. -. 마찬가지의 논리로, 단변량 중심극한정리를 다변량에 적용하는것도 가능하다. 2) 다변량 확장을 위해 알아야 하는 사실들 ${(1)}$ L2 Norm -. 벡터의 크기를 측정 가능하도록 하는 측도 -. 벡터 $v \in R^{n}$에 대하여 v의 L2 Norm은 다음과 같이 정의할 수 있다. $$ ||v|| = \sqrt{\sum_{i = 1}^{n} v_{i}^{2}} $$ -. 이 때, $v_{i}$는 벡터 v의 $1,\dots,n$ 번째 요소이다 ${(2)}$ 다음의 경우는 단변량에서의 정리가 다변량에서도 공통적으로 ..

중심극한정리의 중요성 1) 중심극한정리의 정의 ${(1)}$ 중심극한정리는 -. (모수를 모르는 어떤 임의의 분포에서) 샘플들을 많이 추출하여 -. 모수를 추정하도록 하는 샘플들의 통계량(즉, 추정량)을 구할 경우 -. 그 통계량은 많은 경우 정규분포로 수렴한다. -. 이 때, 통계량에는 우리가 익히 알고있는 평균 등이 포함된다. 특히 평균은 $N(\mu, \frac{\sigma^{2}}{n})$, 혹은 표준화를 수행할 경우 $N(0,1)$로 수렴한다. ${(2)}$ 엄밀한 정의는 다음과 같이 내릴 수 있다. $[X_{1}, \dots X_{n}]$을 평균 $\mu$와 분산 $\sigma^{2}$인 분포에서 추출한 확률표본의 집합이라고 하자. 다음의 통계량을 정의하자 $$Y = \frac{\sqrt{n}..
분포수렴이란 1) 확률변수가 갖는 자산 중 하나인 '분포'의 수렴에만 집중한 수렴 정의법 ${(1)}$ 엄밀하게 정의하면 다음과 같이 나타낼 수 있다. $[X_{n}]$ 이 확률변수의 집합이고 X가 어떤 확률변수라고 하자. $F_{X_{n}}$과 $F_{X}$를 각각의 확률변수들의 CDF 라고 하자. $C(F_{x})$를 함수 $F_{X}$가 연속인 모든 정의역의 점의 집합이라고 할 때 $$lim_{n \rightarrow \infty} F_{X_{n}} = F_{x}$$(단, X는 $x \in C(F_{X})$에 대하여 유효하다) 가 참이면 $X_{n}$을 $X$에 대하여 분포수렴한다고 하고, 상징적으로 $$X_{n} \overset{D}{\rightarrow} X$$ 로 표현한다. 2) 마찬가지로 확..
확률수렴이란? 1) 분포의 극한과 수렴 ${(1)}$ $[X_{n}]$을 어떤 확률변수들의 집합이라고 하자. X를 동일한 표본공간에 정의된 확률변수라고 하자. -. 이 때, $X_{n}$에서 n을 매우, 무수히, 많이 뽑는다고 가정하자. 요컨데 $n \rightarrow \infty$ 이다. -. 이런 경우, 무수히 많은 $X_{n}$은 점차적으로 X라는 확률변수에 가까워질 수 있다. ${(2)}$ 이 때, 우리는 이 무수히 많이 뽑은 $X_{n}$이 X로 다가가는 현상을 엄밀하게 정의할 필요성이 생긴다. -. $X_{n}$이 X로 점차 다가가는 현상을 수렴한다 라고 표현하고, 이 수렴을 정의하기 위한 방법론은 다음 두가지가 있다. -. 분포수렴과 확률수렴이 그것이다. 2) 확률수렴 ${(1)}$ 확률 ..

부트스트랩이란 1) 표본을 이용하여 지속적인 복원(혹은 비복원) 추출을 반복하여 모수를 추정하는 추정량의 분포를 알아내는 방법론 ${(1)}$ 모수를 추정하는 추정량의 분포를 추정하기 위한 시뮬레이션이다 ${(2)}$ 추정량에 대한 분포를 시뮬레이션이기 때문에 표본(의 실현값)을 이용한다. ${(3)}$ 다표본 검정의 경우 비복원을 사용하고, 일표본 검정의 경우 복원 추출을 활용한다. ${(4)}$ 샘플이 n개라면, 추출도 n번 수행하여 n개의 재추출을 수행한다. 부트스트래핑 기법을 이용하여 샘플의 평균과 분산을 추정하기 위한 분포를 시뮬레이션하는 예시 애니메이션 처음에 어떤 분포인지도 알 수 없던 샘플의 평균에 대한 히스토그램은 점차적으로 정규분포로 수렴하는 것을 볼수 있다. 이를 이용하여 우리는 샘플..

2024-12-16 채택-기각 알고리즘에 대한 내용 대거 보강 몬테카를로 방법1) 특정한 분포나 표본(Sample)로부터 역으로 관측값을 생성하는 방법론${(1)}$ 반복된 무작위 추출을 이용하여 문제를 푸는 목적이 되는 확률분포를 근사적으로 모델링한다.-. 즉, 무작위 추출된 표본값을 근사적으로 모델링된 분포를 거쳐 변환한 시뮬레이션 실현값은 우리가 알길 원하는 확률분포의 실현값으로 간주해도 무방하다-.몬테카를로 방법을 통해, 실질적으로 닫힌 형태로 분포를 구할 수 없는 현실의 많은 문제를 시뮬레이션을 통해 대리 확인할 수 있다는 점에서 장점을 가진다.-. 그러나, 수많은 무작위 반복 실험을 거쳐야하기 때문에 뛰어난 컴퓨팅파워가 없는 경우 실험이 어려운 경우가 많다.${(2)}$ 구체적으로는 다음의 단..

카이제곱 검정이란 1) 카이제곱 분포에 기반한 가설검정 방법 ${(1)}$ 각 명목형 데이터의 빈도(Count)를 확률변수로 취급하고, 관측값과 기댓값 사이에 유의미한 차이가 있는지를 검정 ${(2)}$ 다음의 가설을 검정한다. -. $H_{0}$ : $p_{1} = p_{10} / p_{2} = p_{20} / ... / p_{k-1} = p_{(k-1)0}$ -. $H_{1}$ : 적어도 하나는 다르다 -. 이때, $p_{k-1}$은 검정의 대상이 되는 지정된 어떤 값이다. 2) 카이제곱 검정식의 유도 ${(1)}$ 2차까지의 항을 우선 구해보고, 이를 토대로 일반화된 패턴을 끌어내본다. -. $ X_{1} $를 다변량 정규분포를 구성하는 확률변수 중 하나라고 하자. $$ X_{1} \sim b(n,..
양측검정 1) 가설검정에서 계속해서 확인했던 가설검정은 모두 한쪽 방향으로만 가설을 검정하는 단측검정이었다. ${(1)}$ 예를 들어, 마지막 예제에서 봤던것과같은 다음과 같은 가설이다 $$H_{0} : T_{1} = \omega_{0} \ vs \ H_{1} : T_{1} > \omega_{0}$$ ${(2)}$ 양측검정은 위와 같은 가설을 확장하여, 다음과 같은 가설을 검정할 수 있도록 한다 $$H_{0} : T_{1} = \omega_{0} \ vs \ H_{1} : T_{1} \neq \omega_{0}$$ -. '좌측이 크다'는 가설이 '같지 않다'로 바뀐것에 주목하자 2) (정규분포를 활용한) 평균에 대한 대표본 양측검정 ${(1)}$ X가 평균 $\mu$, 분산 $\sigma^{2}$를 가지..

가설과 가설검정 1) 가설이란? ${(1)}$ 가설, 특히 통계적 가설이란 모수 또는 분포에 대하여 연구자가 주장하는 내용을 말한다. -. 예를 들어서, 홈페이지의 새로운 UI에 대하여 '잠재적 사용자'란 모집단이 존재한다고 가정할 때 -. 사이트에 실제로 유입된 표본들의 (원본 / 개선안)의 클릭률 차이가 모집단에서도 마찬가지로 유의미할 것이라도 주장할 수 있다. 2) 가설 검정이란? ${(1)}$ 연구자가 주장한 가설이 실제로도 유의미한지 참 / 거짓을 판별하는 방법론을 가설검정이라고 한다. ${(2)}$ 가설 검정엔 귀무가설과 대립가설이라는 두 개념이 등장한다. -. 대립가설 : 연구가설이라고도 표현한다. 연구자가 관심을 갖고 있는(즉 연구자가 주창한) 가설을 의미한다. -. 귀무가설 : 영가설이라..

분위수란? 1) 앞서 우리는 확률변수 $[X_{1}, ..., X_{n}]$를 크기 순서대로 정렬하여 추론을 수행하는 순서통계량에 대해 알아보았다. ${(1)}$ 이제 떠올려볼 수 있는 자연스러운 다음 단계는, 순서를 구할수 있었으니 그 순서를 이용하여 확률변수들을 단계로서 구분지을 수 있는 구간값을 구하는 것이다. -. 예를 들어, 우리나라 복지제도에서 수급 대상자를 선정하는 주요 기준인 중위수(Median)는 우리나라 모든 국민 가구를 순서대로 정렬하였을 때 정확히 중간에 있는 사람의 소득을 의미한다. 2) 분위수의 정의와 공식 ${(1)}$ X를 연속형 누적확률함수(CDF) $F(x)$를 갖는 확률변수라고 하자. -. 이 때, $0 < p < 1$에 대하여 p순위 분위수는 다음과 같이 정의한다. $..
순서통계량이란 무엇인가? 1) 모수통계와 비모수통계 ${(1)}$ 지금까지 살펴본 통계적 추론은 모두 어떤 확률분포를 가정하고 논의를 진행해왔다 -. 이항분포, 정규분포 등 분포 가정에서 시작하여 이 분포에서 추출한 확률표본들을 기반으로 통계량을 정의하였다. -. 분포 가정이 없었다 하더라도, 그 확률표본들의 평균은 정규분포를 따른다는 중심극한정리에 의거해서 논의를 진행했기 때문에 확률분포에서 자유롭지 않다. -. 이처럼, 어떤 분포를 가정하고 통계적 추론을 수행하는 통계적 방법론을 모수통계라 한다. ${(2)}$ 모수통계의 맹점은, 매우 엄격한 통계적 가정을 만족해야 비로소 추론이 가능하다는 점이다. -. 표본들의 원 확률변수(즉, 모집단의 확률변수)가 어떤 분포를 따른다고 강력하게 가정이 가능하거나 ..

계속해서, 모수 $\theta$를 추정하는 문제로 들어가보자. 1) 우리가 추정하는 모수에 대한 추정량 $\widehat{\theta}$가 있다고 가정하자. ${(1)}$ 이 떄, 우리가 추정한 이 추정량 $\widehat{\theta}$가 정말 $\theta$에 대한 완전한(즉, 오차가 없는) 추정량일 확률은 낮다. -. 사실, $\theta$를 어떤 확률분포를 따르는 확률변수라고 가정한다면, 오차가 전혀 없을 확률 즉 $P(\theta = \widehat{\theta})$일 확률은 0과 같다.(정확한 지점에서의 확률은 0이다.) ${(2)}$ 아예 정확한 추정량을 구하는것은 불가능하지만, 매우매우 근접한 '좋은 품질의 추정량'을 구하는것은 충분히 가능하다. -. 이제, 관점을 바꿔서, 우리가 추정한 ..

추정량과 최대우도추정량 1) 추정량이란 모수를 추정케하는 통계량과 연관된 개념이다. ${(1)}$ 확률변수 X에서 추출한 확률표본 $[X_{1}, X_{2}, ..., X_{n}]$이 있다고 가정하고, 이 확률표본의 함수인 통계량을 $T = T($[X_{1}, X_{2}, ..., X_{n}]$)$라고 하자. -. 이 때, T로 모수 $\theta$를 추정할 수 있다면, 이 T를 모수 $\theta$에 대한 추정량이라고 표현한다. 2) 최대우도추정량이란 최대우도법이란 테크닉을 이용하여 구한 추정량이다. ${(1)}$ 우도(혹은 가능도, likelihood)란, 확률표본들의 실현값들이 주어졌을때(즉, 우리가 관찰 가능한 데이터가 주어졌을 때) 이 데이터가 특정 모수를 가진 분포에서 나왔을 척도를 나타낸다...

개요 1) 현대 통계학의 문제에서 대부분의 의문은 어떤 확률변수 X에 대하여 다음의 질문에 답을 얻는것이다. ${(1)}$ 어떤 확률변수 X에 대하여, 그 확률변수 X의 pdf(혹은 pmf)는 무엇일까? ${(2)}$ pdf(pmf)는 안다고 해도, 그 pdf(pmf)에서 나타나는 파라미터 $\theta$는 무엇일까? 2) 이 중, 두 번째 질문에 답변하기 위해 필요한 개념이 바로 표본과 통계량이다. 표본 1) 어떤 확률변수 X가 집합 $\omega$에 대해 pdf(혹은 pmf)를 정의 가능하다고 하자. ${(1)}$ 이 때, 확률변수 X와 동일한 분포를 가지면서, X를 통해 n번 샘플링한 [X_{1},X_{2}, ..., X_{n}]가 서로 독립일 경우 확률표본이라고 표현한다. -. 위에서 정의한 ①동..
T분포를 발견한 스튜던트가 T분포 증명 과정에서 파생시킨 따름 정리들 1) 다음의 네개 따름 정리를 한데 묶어 '스튜턴트의 정리'라고 표현한다. 2) 스튜던트의 정리는 추론통계에서 주로 사용되는 T검정은 물론이고 정규분포와 관련된 다양한 추론에 활용되므로 각각의 정리가 어떤 의미인지는 알고 넘어가는 것이 좋다. $X_{1}, X_{2}, ..., X_{n}$을 각각 평균 $\mu$와 분산 $\sigma^{2}$을 따르는 i.i.d인 확률변수라고 하자. 확률변수 $\overline{X} = \frac{1}{n}\sum_{i=}^{n}(X_{i})$ 그리고 $S^{2} = \frac{1}{n-1}\sum_{i=1}^{n}(X_{i} - \overline{X})^{2}$ 이라고 정의할때, 아래의 정리는 참이다..