Study RL-9. Policy-Gradient and Actor-Critic methods 지금까지 Model-based, Value-based를 다뤘다. Policy-based는 또다른 장단점을 갖고 있다. 상황에 따라 model을
Study RL-6. Model-free Control 저번 강까지는 unknown MDP에서 value function을 예측하는 방법인 Model-free prediction을 배웠다. 이번
Study RL-5. Model-free Prediction 저번 강까지는 known MDP에서 dynamic programming을 통한 planning을 다뤘다. 이번 강부터는 unknown