cs294-RL introduction

強化學習的種類 model-based RL 值函數 policy gradient actor-critic: value function plus policy gradients 爲什麼要有那麼多的RL算法? 協調因素:採樣高效、穩定 不同假設:隨機或確定、連續or離散、episode or infinite horizon 難度不同:策略展示簡單還是模型展示簡單 採樣高效、on-poli
相關文章
相關標籤/搜索