8 Actor Critic

Policy Gradient 能夠讓算法在連續的空間中選擇動作。 Value-Based 方法能夠實現單步更新,而Policy Gradient是回合更新。 Critic 部分學習出系統的獎懲值, 由學習到的獎懲值指導Actor的動作。 每次參數更新都存在相關性,導致神經網絡只能片面的看待問題。 爲解決在連續動作上預測學不到東西的問題 https://www.bilibili.com/video
相關文章
相關標籤/搜索