Lecture 6: Actor-Critic Algorithms

時間 2021-01-12

標籤 CS294-112 課程筆記简体版

原文原文鏈接

improve the policy gradient 在如下計算gradient 的公式中，只用到了一個trajectory 的數據，但實際情況非常複雜，所以需要使用期望：所以將後面那個求和項用如下期望替代： baseline 設爲的期望，表示平均的收益概念。減去baseline之後，變爲如下等式：其中上式的表示 advantage value , 表示這個動作比預期的

>>阅读原文<<