통계학은 인공지능과 겹치는 부분이 매우 많고, 쉬운 개념도 잊기 쉽다.
매우 기초적인 지식은 알고 있다고 가정하고, 머신러닝을 수행하기 위한 내용을 공부해보자.
학부 과정에서 배운 확률과 통계, 데이터마이닝 내용과 책 'Mathematics for Machine Learning'을 참고했다.
목차
3. Random Variable (확률 변수)
변수는 변할 수 있는 값이며, 방정식 등에서 우리가 특정 값을 할당하여 해를 구할 수 있다.
확률 변수도 이와 비슷한 개념으로, 변할 수 있는 여려 값을 갖지만, 해를 구하지는 않는다는 점이 다르다.
오히려 표본 공간 \(S\)의 특정 값을 입력 받아 \(X(s)\)에 포함되는 특정 '확률'을 출력하는 함수이다.
(평소 '변수'의 개념에 대한 착각을 버려야 한다!)
좀 더 정확하게 말하자면, 확률 변수란 확률 현상(가능한 결과 중 어떤 결과가 나올 지 모르는 현상)에 대해 특정 확률로 발생하는 각각의 결과를 말한다.
함수로서의 확률 변수 \(X\)에 대한 치역(range of \(X\))은 다음과 같다.
\( A_x = \{ x \in \mathbb{R} | X(s) = x, s \in S \} \)
그리고, X에 의해 유도된 확률 \(P_x(A) \)는 다음과 같다.
\( P_x(A) = P(A^*) \)
예시를 통해 알아보자.
Q) 하나의 동전을 두 번 던지는 실험에서 확률 변수 \(X\)가 앞면의 개수라 할 때, \(P(X=1)\)을 구하시오.
말로 풀어쓰면, 구하는 값은 바로 '하나의 동전을 두 번 던질 때 앞면의 개수가 한 번 나올 확률'이다.
앞면을 H(head), 뒷면을 T(tail)라 하면
전체 가능한 경우의 집합, 즉 표본 공간 \(S = \{HH, HT, TH, TT \} \)이다.
여기서 \(X\)라는 확률 변수(함수)는 앞면의 개수를 나타내므로, 치역 \(A_x = \{ 0, 1, 2 \} \)이다.
이때 구하고자 하는 값을 \(A^*\)로 두면,
\( P(X=1) = P(A^*) = P( \{HT, TH \} ) = 2/4 = 0.5 \)
와 같이 답을 구할 수 있다.
Random variable에는 두 가지 타입이 있다.
- Discrete RV
- 확률 변수가 취하는 값을 셀 수 있다. ex) 동전 뒤집기, 주사위 등
- Continuous RV
- 확률 변수가 취하는 값이 특정 범위 이내의 실수값 등 셀 수 없이 연속적인 범위를 갖는다. ex) 면적, 시간을 포함하는 개념 등
4. Probability Distribution (확률 분포)
확률 분포란, 확률 변수의 모든 값과 그에 대응하는 확률이 어떻게 분포하는지를 나타낸 것을 말한다.
Probability Function (확률 함수)이란, 확률변수에 의해 정의된 값(실수)을 확률(0 ~ 1 사이의 값)에 대응시키는 함수를 말한다.
간단히 '확률 변수가 일어날 확률을 나타내는 함수'라 할 수 있겠다.
이제 표본공간 → 실수공간 → 확률에 이르기 까지의 과정을 다음 그림과 같이 나타낼 수 있다.
따라서 우리는 어떤 확률 변수의 확률 함수를 알게 되면 어떤 사건이 일어날 확률을 계산할 수 있게 된다.
1) Probability Mass Function (PMF, 확률 질량 함수)
확률 변수 \(X\)가 discrete random variable일 경우, Discrete Distribution(이산형 분포)을 따른다고 하고, 그에 따른 확률 함수를 probability mass function이라 한다.
\( \forall x \in X \)
\( \exists f: \text{ft.} \quad \quad \text{s.t.} \quad f(x) = P(X = x) \)
\( \begin{align*} \Rightarrow & X = \text{discrete random variable} \\ & f = \text{Probability Mass Function} \end{align*} \)
관련 정리는 다음과 같다.
- \( P(X = x) = f(x) \geq 0 \)
- \( \sum\limits_{x \in S} f(x) = 1 \)
- \( P_x(A) = P(x \in A) = \sum\limits_{x \in A} f(x) \)
세 번째 정리에 주목하자.
이산 확률 변수일 경우, 즉 probability mass function에서는 summation을 통해 확률의 합을 구할 수 있다.
2) Probability Density Function (PDF, 확률 밀도 함수)
확률 변수 \(X\)가 continuous random value일 경우, Continuous Distribution(연속형 분포)을 따른다고 하고, 그에 따른 확률 함수를 Probability Density Function이라 한다.
\( \forall x \in X \)
\( \exists f: \text{ft.} \quad \quad \text{s.t.} \quad P(X = x) = \int_A f(x) dx \)
\( \begin{align*} \Rightarrow & X = \text{continuous random variable} \\ & f = \text{Probability Density Function} \end{align*} \)
관련 정리는 다음과 같다.
- \( f(x) \geq 0 \)
- \( \int_{-\infty}^{\infty} f(x) dx = 1 \)
- \( P(x < a) = \int_{-\infty}^{a} f(x) dx \)
3) Cumulative Distribution Function (CDF, 누적 분포 함수)
누적 분포 함수는 줄여서 그냥 분포 함수라고 표현하기도 하며, 다음과 같이 정의한다.
\( \forall x \in \mathbb{R} \)
\( \exists f: \text{ft.} \quad \quad \text{s.t.} \quad F(x) = P(X \leq x) \)
\( \Rightarrow F : \text{(Cumulative) Distribution function of Random Variable } X \)
정의에 따라, \(f\)가 pdf이고, \(F\)가 \(f\)의 distribution function이라면, 다음이 성립한다.
\( F'(x) = f(x) \quad \quad \text{i.e.} F(x) = \int_{-\infty}^{x} f(x) dx \)
분포 함수의 성질은 다음과 같다.
- 비감소함수이다. 즉, \(\text{if} \; x_1 < x_2 \Rightarrow F(x_1) \leq F(x_2) \)
- \( F(-\infty) = 0, \; F(\infty) = 1 \)
- 분포함수는 항상 우측 연속이다.
- 이산형에서 좌측은 비연속일 수 있지만, 우측으로는 항상 연속이다.
따라서, 특정 점에서의 확률을 구하려면 PMF 또는 PDF를 사용하고, 구간에서의 확률을 구하려면 CDF를 사용해야 한다.
4) Bivariate Joint Distribution (이변량 결합 분포), Marginal Distribution (주변 분포)
multidimensional array로 채워진 여러 random variable의 확률 분포를 생각해볼 수 있다.
이때, random variable의 수가 2개인 경우, 해당 확률 분포를 이변량 결합 분포라고 한다.
3개 이상인 경우에는 다변량 분포라고 표현한다.
이변량 분포에 대한 확률 질량/밀도 함수를 알아보자.
(1) Bivariate Descrete Joint Distribution (이변량 이산형 결합 분포)
두 확률 변수 \(X, Y\) 모두 discrete random variable일 때, Joint Probability Mass Function(결합 확률 질량 함수)은 다음과 같다.
\( f(x, y) = P(X = x, Y = y) \)
\( \Rightarrow f = \text{JPMF of } X, Y \)
\(f\)가 JPMF일 때 관련된 정리는 다음과 같다.
- \( f(x, y) \geq 0 \)
- \( \underset{(x, y) \in S}{\sum \sum} f(x,y) = 1 \)
- \( P( (x,y) \in A ) = \underset{(x,y) \in A}{\sum \sum} f(x, y) \)
역시나 이산형이므로 summation으로 확률을 구하는 것을 볼 수 있다.
(2) Bivariate Continuous Joint Distribution (이변량 연속형 결합 분포)
두 확률 변수 \(X, Y\) 모두 continuous random variable일 때, Joint Probability Density Function(결합 확률 밀도 함수)은 다음과 같다.
\( P((x,y) \in A) = \iint_A f(x, y) dA \)
\( \Rightarrow f = \text{JPDF of } X, Y \)
\(f\)가 JPDF일 때 관련된 정리는 다음과 같다.
- \( f(x, y) \geq 0 \)
- \( \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f(x,y) dy dx = 1 \)
- \( P( \text{점} or \text{선}) = 0 \)
\( \ssum\) 마찬가지로, 연속형이므로 적분을 통해 확률을 구한다.
(3) Marginal Distribution (주변 분포)
주변 분포란, 여러 random variable 중에서 결론이 한 variable에 대한 식으로 나오는 분포를 말한다.
따라서 주변 함수의 결과는 하나의 variable에 대한 식이다.
확률 변수 \(X, Y\)가 discrete random variables일 때,
\(X\)의 주변 확률 질량 함수 (Marginal Probability Mass Function of \(X\) )는 다음과 같다.
\( f_1 (x) = P(X = x) = \underset{y}{\sum} P(X=x, Y=y) = \underset{y}{\sum} f(x, y) \)
여기서, \(X\)에 대해 나타내기 위해 y를 없애는 과정을 확인해볼 수 있다.
또한 \(Y\)의 주변 확률 질량 함수 (Marginal Probability Mass Function of \(X\) )는 다음과 같다.
\( f_2 (y) = P(Y = y) = \underset{x}{\sum} P(X=x, Y=y) = \underset{x}{\sum} f(x, y) \)
마찬가지로, \(Y\)에 대해 나타내기 위해 x를 없애주는 과정을 거친다.
확률 변수 \(X, Y\)가 continuous random variable일 때, \(X\)와 \(Y\)의 주변 확률 밀도 함수(Marginal Probability Density Function)는 각각 다음과 같다.
\( f_1(x) = \int_{-\infty}^{\infty} f(x,y) dy \) (Marginal PDF of X)
\( f_2(y) = \int_{-\infty}^{\infty} f(x,y) dx \) (Marginal PDF of Y)
5) Independent Random Variable (독립 확률 변수)
random variable \(X, Y\)에 대한 각각의 사건 A, B가 독립인 경우 (\(P(A \cap B) = P(A) P(B) \))
\(X, Y\)를 독립 확률 변수라 한다.
정의는 다음과 같다.
\( X, Y : \text{independent} \; \Rightarrow P(X \leq x, Y \leq y) = P(X \leq x) P(Y \leq y) \)
또한, 주변확률함수를 사용하여 다음과 같이 나타낼 수도 있다.
\( X, Y : \text{independent} \; \Leftrightarrow f(x, y) = f_1(x) f_2(y) \)
최근댓글