본문 바로가기

ML, DL/reinforcement learning3

[RL] 강화학습 part3 - Temporal Difference Learning, RL application [RL] 강화학습 part3 - Temporal Difference Learning, RL application 5. 시간차 학습 Temporal difference learning 가장 혁신적인 알고리즘입니다. 동적 프로그래밍과 몬테카를로 방법의 장점을 겸비하였습니다. 1) 정책 평가 에피소드 e = $[s_0, r_0]a_0[s_1, r_1]a_1 \cdots [s_T, r_T]$에서 샘플 $z_t$를 처리한다면 몬테카를로 방법은 $Z(s_t)$에 이 샘플을 추가한다음 아래 식으로 가치함수를 갱신합니다. $$ v_{\pi}(s_t) = \frac{1}{\vert Z(s_t) \vert}\sum_{z \in Z(s_t)} \mathbb{r}(z) $$ 샘플 $z_t$가 k번째로 추가되었다면, 추가된 순.. 2019. 12. 6.
[RL] 강화학습 part2 - Dynamic programming, Monte Carlo Method [RL] 강화학습 part2 - Dynamic programming, Monte Carlo Method 이 글은 [RL] 강화학습 part1 - policy, value function 글과 이어집니다. 3. 동적프로그래밍 Dynamic programming 강화학습에서 사용하는 고전적인 방법입니다. MDP 확률분포가 주어지고, 상태, 행동 개수가 적어 계산시간과 메모리 요구량이 현실적이어야 구현이 가능합니다. 스토캐스틱 동적 프로그래밍 알고리즘 교과서에서 배우는 동적 프로그래밍은 결정론 문제를 풀도록 설계되어있으므로, 강화학습에 적용할 수 없습니다. 강화학습은 스토캐스틱 동적 프로그래밍을 사용합니다. 1) 정책 반복 알고리즘 평가 : 현재 정책에서 가치함수 계산 개선 : 가치함수를 이용해 정책을 갱신 .. 2019. 12. 6.
[RL] 강화학습 part1 - policy, value function [RL] 강화학습 part1 - policy, value function Reinforcement Learning 1. 강화학습 원리와 성질 state, action을 번갈아 가면서 목표를 달성합니다. 강화학습 교과서(Sutton, 2017) 참고 1) 계산 모형 상태, 행동, 보상 state, action, reward $$ f:(s_t, a_t) \rightarrow (s_{t+1}, r_{t+1}) $$ $s_t$에서 행동 $a_t$를 취하면, 새로운 상태 $s_{t+1}$로 바뀌고 보상 $r_{t+1}$을 받습니다. t = T (마지막 순간은 주로 T로 표기합니다. 위 예시는 T=5) 인 순간에 과업이 성공했으므로 보상 1을 주면 됩니다. 만약 중간에 넘어지면 보상 -1을 주고, $r_1$~$r_.. 2019. 12. 6.
728x90