notes4-- 深度強化學習入門到熟練(Shusen Wang)

Actor-Critic Methods 固定S,更新策略網絡的 θ \theta θ,使得V的平均值增加。 策略網絡 π \pi π相當於體操運動員,裁判相當於價值網絡q,運動員努力提高技術使得裁判打分更高,裁判打的分數就是監督信號,運動員靠裁判打的分數提高自己技術。 更新價值網絡的w,是爲了讓q的打分更精準。 裁判相當於價值網絡q, 一開始是隨機初始化,裁判沒有判斷能力。 裁判會逐漸改變自己的
相關文章
相關標籤/搜索