TD-gammon1 [RL] 강화학습 part3 - Temporal Difference Learning, RL application [RL] 강화학습 part3 - Temporal Difference Learning, RL application 5. 시간차 학습 Temporal difference learning 가장 혁신적인 알고리즘입니다. 동적 프로그래밍과 몬테카를로 방법의 장점을 겸비하였습니다. 1) 정책 평가 에피소드 e = $[s_0, r_0]a_0[s_1, r_1]a_1 \cdots [s_T, r_T]$에서 샘플 $z_t$를 처리한다면 몬테카를로 방법은 $Z(s_t)$에 이 샘플을 추가한다음 아래 식으로 가치함수를 갱신합니다. $$ v_{\pi}(s_t) = \frac{1}{\vert Z(s_t) \vert}\sum_{z \in Z(s_t)} \mathbb{r}(z) $$ 샘플 $z_t$가 k번째로 추가되었다면, 추가된 순.. 2019. 12. 6. 728x90 이전 1 다음