통계학은 인공지능과 겹치는 부분이 매우 많고, 쉬운 개념도 잊기 쉽다.
매우 기초적인 지식은 알고 있다고 가정하고, 머신러닝을 수행하기 위한 내용을 공부해보자.
학부 과정에서 배운 확률과 통계, 데이터마이닝 내용과 책 'Mathematics for Machine Learning'을 참고했다.
목차
7. Gaussian Distribution
가우스 분포는 정규분포(Normal Distribution)라고도 불릴 만큼, 연속형 자료의 분포를 표현하는 데 많이 사용되는 분포이다.

추가적으로, 기댓값 뿐만 아니라 중앙값, 최빈값 또한 모두
확률은 다음과 같이 구할 수 있다. 그림에는
가우스 분포는 계산적으로 간단한 특성을 많이 갖고 있다.
- Linear Regression에서의 likelihood와 prior 정의에 사용된다.
- density estimation에 가우스 분포를 혼합한 방식을 사용한다.
머신러닝과 다른 분야에서도 다음과 같이 사용된다.
- Gausian processes
- variational inference
- Reinforcement learning
- signal processing (e.g. Kalman filter)
- control (e.g. linear quadratic regulator)
- statistics (e.g. hypothesis testing)

1) Standard (Normal) Distribution
그런데, 위 정의에서 볼 수 있듯이 pdf가 매우 복잡하므로, 보통 표준 (정규)분포(Standard Normal Distribution)를 사용하여 계산한다.
표준 분포는 평균이 0, 분산이 1인 가우스 분포이다.
\( \forall X \text{continuous random variable} \)
주어진 확률 분포
여기서,
가우스 분포를 따르는 어떤 확률 분포든
2) More general representation
아래부터는 심화 내용이다. 위 내용까지만 알아도 충분히 기본적인 문제를 해결할 수 있다.
좀 더 일반적으로, 다음과 같이 단일변수 pdf를 표현하기도 한다.
(for a univariate random value, the Gaussian distribution has a density that is given by)
다변수는 mean vector
이때
위와 비교해보면, 단순히 확률 변수, 평균, 분산을 벡터와 행렬로 변환한 형태일 뿐이다.
이때 확률 변수 X가 mean
또는
그리고, 표준정규분포는
3) Marginals and Conditionals of Gaussians
두 개의 multivariate random value
확률에서의 sum rule을 적용하고, conditioning을 적용하기 위해, 연결된 states
여기서
conditional distribution
여기서 평균 벡터와 분산 행렬은 다음과 같이 정해진다.
joint Gaussian distribution
이는

이는 여러 확률 변수에 대한 joint distribution에서 원하는 변수만 표현하도록 하거나 (marginal), 다른 변수를 관측하였을 때의 분포를 얻을 때 (conditional) 유용하게 사용할 수 있다.
4) Product of Gaussian Densities
Linear Regression 등에서 Gaussian likelihood를 계산해야 할 때가 있다.
이때 Gaussian prior를 가정하고 Bayes' Theorem을 사용하여 posterior를 계산하게 되는데, 이 과정에서 likelihood와 prior의 곱을 진행하게 된다.
이러한 Gaussian density들의 곱을 'product of two Gaussian densities'라 한다.
예를 들어, 가우스 분포의 곱
여기서
위 식에서의 스케일링 상수 c는 매우 복잡한데, 그 자체로 가우스 분포 상의 값이므로 다음과 같이 간단히 표현한다.
여기서,
5) Sums and Linear Transformations
이들의 합
이는 두 확률 분포의 합의 기댓값과 분산은 각 기댓값의 합, 분산의 합과 같음에 의해 쉽게 떠올려 볼 수 있다.
또한,
기댓값과 분산의 성질에 의해,
이는 곧, 확률변수
이는 곧
만약
왜냐하면, 다음의 관계가 성립하기 때문이다.
8. Central Limit Theorem (CLT, 중심 극한 정리)
1) 개념
앞서 모집단(population)과 표본(sample)의 여러 통계량을 살펴보았다.
간단히 정리해보자면 다음과 같다.
- 모평균 :
- 모분산 :
- 표본 평균 :
- 표본 분산 :
- 확률 표본 (random sample) :
- 이때,
은 i.i.d. random variables- i.i.d. : independent and identically distribution의 약자로, 독립적이고 같은 확률 분포를 갖는다는 뜻이다.
- 이때,
중심극한정리는 i.i.d.인 확률 변수 n개의 평균의 분포는 n이 적당히 커지면 정규분포에 가까워진다는 정리이다.
또한 표준 확률 변수는 다음과 같이 계산한다.
좀 더 구체적으로 말하자면, 모집단이 평균이
이를 오해하여 '수집한 표본의 크기가 크면, 표본의 평균이 모집단의 평균과 같고, 표본의 표준편차가 (모집단의 표준편차 / root(표본 개수))이다.'로 이해할 수 있는데, 이는 잘못된 개념이다.
위의 두 문장을 자세히 비교해보자. '표본 자체'가 아니라, '표본 평균이 이루는 분포'가 특정 형태가 된다는 것이다.
즉, 표본을 여러 번(n, 보통 30 이상) 추출했을 때, 그 '표본의 평균의 분포'가 정규분포가 된다는 것이다.
이를 그림으로 나타내면 다음과 같다.

2) 예시
좀 더 쉬운 예를 살펴보자. (출처: 유튜브 StatQuest)
다음과 같은 uniform distribution이 있다.

여기서 20개의 표본을 수집한다.

그리고, 그 표본의 평균값을 빨간 선으로 표현하고, 별도의 다른 그래프에 그 평균값을 표현해보자.


이 과정을 10번 반복하면 다음과 같은 평균값들이 나오게 된다.

10번은 조금 적으므로, 100번을 반복해보면, 다음과 같이 평균 값들의 분포가 정규 분포를 따르는 것을 볼 수 있다.


이것이 바로 중심 극한 정리의 개념이다.
Uniform distribution이 아닌, exponential distribution에서 예시도 살펴보자.

이렇게 샘플링과 평균을 구하여 100번 반복한 후, 별도의 histogram으로 표현하면 다음과 같이 똑같이 정규 분포를 따른다는 것을 알 수 있다.

이는 샘플을 뽑았을 때 평균값을 구할 수 있는 모든 분포에 대해서 똑같이 적용된다.
그리고, 보통 위와 같이 샘플의 표본의 평균을 30번 정도 뽑으면 정규분포를 따른다고 알려져있다.
3) CLT가 중요한 이유
이렇게, 다양한 분포의 샘플의 평균값들이 정규분포를 따른다는 것이 무슨 의미가 있을까?
우리는 실험을 할 때, 데이터가 어떤 분포를 따르는지 항상 알 수 없다.
하지만, 중심극한정리를 사용하여, 여러 표본의 평균값들은 정규 분포를 따르는 것을 이용하여 평균값들의 신뢰 구간(confidence interval)을 만들 수 있고, 서로 다른 두 표본 혹은 3개 이상의 표본 간의 평균의 차이가 있는지 알 수 있는 t-test 혹은 ANOVA를 할 수 있다.
수많은 통계 검증(statistical test)에서 이 성질을 사용한다.
최근댓글