[RL] 강화학습 part1 - policy, value function
[RL] 강화학습 part1 - policy, value function Reinforcement Learning 1. 강화학습 원리와 성질 state, action을 번갈아 가면서 목표를 달성합니다. 강화학습 교과서(Sutton, 2017) 참고 1) 계산 모형 상태, 행동, 보상 state, action, reward $$ f:(s_t, a_t) \rightarrow (s_{t+1}, r_{t+1}) $$ $s_t$에서 행동 $a_t$를 취하면, 새로운 상태 $s_{t+1}$로 바뀌고 보상 $r_{t+1}$을 받습니다. t = T (마지막 순간은 주로 T로 표기합니다. 위 예시는 T=5) 인 순간에 과업이 성공했으므로 보상 1을 주면 됩니다. 만약 중간에 넘어지면 보상 -1을 주고, $r_1$~$r_..
2019. 12. 6.