Lee Hung-yi強化學習 | (6) Actor-Critic、A2C、A3C、Pathwise Derivative Policy Gradient

時間 2021-01-16

原文原文鏈接

Lee Hung-yi強化學習專欄系列博客主要轉載自CSDN博主 qqqeeevvv，原專欄地址課程視頻課件地址 1. 回顧 Policy Gradient G表示在狀態s採取動作a一直玩到遊戲結束所得到的cumulated reward。這個值是不穩定的，因爲在某一個state採取同一個action，最後的結果不一定相同。因爲state的變化也是有隨機性的。雖然經過多次實驗後，可能會發現G

>>阅读原文<<