7 Policy Gradient

時間 2020-12-24

原文原文鏈接

Policy Gradients 相比於 Q-learning 的好處是，它可以在一個連續的空間內選擇動作。神經網絡選擇操作的行爲，根據反饋如果是正向的則加大下一次被選中的機率，如果是反向的則減少下一次被選中的機率。原視頻： https://www.bilibili.com/video/av16921335?p=22

>>阅读原文<<