Lecture 6: Actor-Critic Algorithms

improve the policy gradient        在如下計算gradient 的公式中, 只用到了一個trajectory 的數據,但實際情況非常複雜,所以需要使用期望: 所以將後面那個求和項用如下期望替代: baseline 設爲 的期望  ,表示平均的收益概念。減去baseline之後,變爲如下等式: 其中上式的表示 advantage value , 表示這個動作比預期的
相關文章
相關標籤/搜索