Generative Model Learning (2) - Monte Carlo Estimation

Learning Density Estimation
- Monte Carlo Estimation
- Monte Carlo Estimation and Maximum Likelihood

이번 포스팅에는 Pre-knowledges for Generative Models (1) 글에 이어 Monte Carlo Estimation에 대해 다뤄보려 한다.

Pre-knowledges for Generative Models (1) - KL-divergence, Maximum likelihood

목차 이번 포스팅에서는 딥러닝 기반의 generative model의 학습 과정을 배우기 위해 필요한 기초 지식들을 정리해보려 한다. 이제까지 $p (x)$ 를 어떻게 표현할지를 알아보았는데, 이번 장에서는 어

jjuke-brain.tistory.com

Learning Density Estimation

Monte Carlo Estimation

Monte Carlo estimation은 random sampling을 여러 번 하여 기댓값 계산을 근사하기 위해 사용한다. 딥러닝의 Stochastic Gradient Descent처럼 데이터를 여러 번 샘플링하는 개념으로 볼 수 있다.

먼저, 관심있는 quantity를 random variable의 기댓값으로 표현한다.

$E_{x \sim P} [g (x)] = \sum_{x} g (x) P (x)$

Distribution $P$ 에서 기댓값의 입력으로 들어갈 ${x^{(1)}, \dots, x^{(T)}}$ $T$ 개를 샘플링한 후, 다음 식을 사용하여 샘플들로부터 기댓값을 추정한다.

$\hat{g} (x^{(1)}, \dots, x^{(T)}) ≜ \frac{1}{T} \sum_{t = 1}^{T} g (x^{t})$

여기서 sample들은 서로 독립적이며, $P$ 를 따른다.

큰 수의 법칙에 의해, $T \to \infty$ 이면 $\hat{g}$ 는 $E_{P} [g (x)]$ 에 수렴한다.

이렇게 근사하게 되면 두 가지 특징을 갖게 된다.

Unbiased : $E_{P} [\hat{g}] = E_{P} [g (x)]$
Variance reduction : $V_{P} [\hat{g}] = V_{P} [\frac{1}{T} \sum_{t = 1}^{T} g (x)] = \frac{V_{P} [g (x)]}{T}$

Monte Carlo Estimation and Maximum Likelihood

Biased coin을 던지는 sinvle variable 예시를 들어보자. 가능한 결과는 heads(H)나 tails(T)이고 ( $x \in {H, T}$ , dataset은 예를 들어 $D = {H, H, T, H, T}$ 로 나왔다고 하자. 이 과정은 probability distribution $P_{data} (x)$ 을 따른다.

$x$ 에 대한 모든 probability distribution, 즉 가능한 model들의 집합을 $M$ 이라 할 때, $D$ 에서 코인을 100번 던졌을 때 60번 앞면(head)일 확률 $P_{θ} (x)$ $M$ 으로부터 어떻게 고를 수 있을까?

우선 $P_{θ} (x = H) = θ$ , $P_{θ} (x = T) = 1 - θ$ 로 둔다. Example data $D = {H, H, T, H, T}$ 이므로, 이 데이터에 대한 likelihood는 다음과 같이 나타낼 수 있다.

$L (θ | D) = θ^{3} \cdot (1 - θ)^{2}$

여기서 log를 취하면 log-likelihood를 다음과 같이 구할 수 있다.

$\log L (θ) = 3 \log (θ) + 2 \log (1 - θ)$

Maximum likelihood estimation(MLE)의 목표는 $\log L (θ^{*})$ 를 최대로 하는 0과 1 사이의 최적의 $θ$ 를 찾는 것이다.

이를 autoregressive representation에 적용시켜보자.

Training data $D = {x^{(1)}, \dots, x^{(m)}}$ 에 대해 다음과 같은 autoregressive model이 있다.

$P_{θ} (x) = \prod_{i}^{n} P_{neural} (x_{i} | p a (x_{i}); θ_{i})$

여기서 MLE를 적용하려면, 우선 likelihood function을 분해(decompose)해야 한다.

$L (θ | D) = \prod_{j = 1}^{m} P_{θ (x^{(j)})} = \prod_{j = 1}^{m} \prod_{i = 1}^{n} P_{neural} (x_{i}^{(j)} | p a (x_{1})^{(j)}; θ_{i})$

여기에 log를 취하면,

$\sum_{j = 1}^{m} \sum_{i = 1}^{n} \log P_{neural} (x_{i}^{(j)} | p a (x_{1})^{(j)}; θ_{i})$

이제 $\underset{θ}{argmax} \log L (θ | D)$ 를 풀기위해 아래와 같이 optimize한다.

Initialization : $θ^{(0)}$ 을 랜덤하게 initialize
Back propgation : $\nabla_{θ} \log L (θ)$ 계산
Weight update : $θ^{(t + 1)} = θ^{t} + α_{t} \nabla_{θ} \log L (θ)$

Weight update 과정을 수식으로 나타내면 다음과 같다.

$\nabla_{θ} \log L (θ) = \sum_{j = 1}^{m} \sum_{i = 1}^{n} \nabla_{θ} \log P_{neural} (x_{i}^{(j)} | p a {(x_{i})}^{(j)}; θ_{i})$

만약 $m = | D |$ 가 크다면,

$\begin{aligned} \nabla_{θ} \log L (θ) & = m \sum_{j = 1}^{m} \frac{1}{m} \sum_{i = 1}^{n} \nabla_{θ} \log P_{neural} (x_{i}^{(j)} | p a {(x_{i})}^{(j)}; θ_{i}) \\ = m E_{x^{(j)} \sim D} [\sum_{i = 1}^{n} \nabla_{θ} \log P_{neural} (x_{i}^{(j)} | p a {(x_{i})}^{(j)}; θ_{i})] \end{aligned}$

여기서 Monte Carlo estimation을 통해 다음과 같이 근사할 수 있다.

$Sample x^{(j)} \sim D; \nabla_{θ} \log L (θ) = m \sum_{i = 1}^{n} \nabla_{θ} \log P_{neural} (x_{i}^{(j)} | p a {(x_{i})}^{(j)}; θ_{i})$

저작자표시 비영리 변경금지 (새창열림)

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Generative Model Learning (2) - Monte Carlo Estimation

Learning Density Estimation

Monte Carlo Estimation

Monte Carlo Estimation and Maximum Likelihood

전체 카테고리

블로그 인기글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

Learning Density Estimation

Monte Carlo Estimation

Monte Carlo Estimation and Maximum Likelihood

전체 카테고리

최근 글

최근댓글

블로그 인기글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역