notes4-- 深度強化學習入門到熟練（Shusen Wang）

時間 2021-01-16

標籤 DRL 简体版

原文原文鏈接

Actor-Critic Methods 固定S，更新策略網絡的 θ \theta θ，使得V的平均值增加。策略網絡 π \pi π相當於體操運動員，裁判相當於價值網絡q，運動員努力提高技術使得裁判打分更高，裁判打的分數就是監督信號，運動員靠裁判打的分數提高自己技術。更新價值網絡的w，是爲了讓q的打分更精準。裁判相當於價值網絡q，一開始是隨機初始化，裁判沒有判斷能力。裁判會逐漸改變自己的

>>阅读原文<<