7 Policy Gradient

Policy Gradients 相比於 Q-learning 的好處是,它可以在一個連續的空間內選擇動作。 神經網絡選擇操作的行爲,根據反饋如果是正向的則加大下一次被選中的機率,如果是反向的則減少下一次被選中的機率。 原視頻: https://www.bilibili.com/video/av16921335?p=22
相關文章
相關標籤/搜索