policy iteration1 [RL] 강화학습 part2 - Dynamic programming, Monte Carlo Method [RL] 강화학습 part2 - Dynamic programming, Monte Carlo Method 이 글은 [RL] 강화학습 part1 - policy, value function 글과 이어집니다. 3. 동적프로그래밍 Dynamic programming 강화학습에서 사용하는 고전적인 방법입니다. MDP 확률분포가 주어지고, 상태, 행동 개수가 적어 계산시간과 메모리 요구량이 현실적이어야 구현이 가능합니다. 스토캐스틱 동적 프로그래밍 알고리즘 교과서에서 배우는 동적 프로그래밍은 결정론 문제를 풀도록 설계되어있으므로, 강화학습에 적용할 수 없습니다. 강화학습은 스토캐스틱 동적 프로그래밍을 사용합니다. 1) 정책 반복 알고리즘 평가 : 현재 정책에서 가치함수 계산 개선 : 가치함수를 이용해 정책을 갱신 .. 2019. 12. 6. 728x90 이전 1 다음