Sign in Subscribe

Study

RL-9. Policy-Gradient and Actor-Critic methods

지금까지 Model-based, Value-based를 다뤘다. Policy-based는 또다른 장단점을 갖고 있다. 상황에 따라 model을

RL-7. Function Approximation in RL

이번 강의에서는 state가 너무 많을 때 근사하여 value를 예측하는 법을 배운다. 다음

RL-6. Model-free Control

저번 강까지는 unknown MDP에서 value function을 예측하는 방법인 Model-free prediction을 배웠다. 이번

RL-5. Model-free Prediction

저번 강까지는 known MDP에서 dynamic programming을 통한 planning을 다뤘다. 이번 강부터는 unknown