2020李宏毅學習筆記——70 RL Advanced Version 6.Actor-Critic

時間 2021-01-13

原文原文鏈接

Asynchronous Advantage Actor-Critic (A3C) 回顧 – Policy Gradient 先對policy gradient進行回顧，只需要記得幾個要點：給定某個state採取某個action的概率考慮到行動輸出的概率和爲一，爲了保證reward越大的有更大的概率被sample到，需要加上baseline b 考慮到當先action對過去的reward沒有影

>>阅读原文<<