2020李宏毅學習筆記——70 RL Advanced Version 6.Actor-Critic

Asynchronous Advantage Actor-Critic (A3C) 回顧 – Policy Gradient 先對policy gradient進行回顧,只需要記得幾個要點: 給定某個state採取某個action的概率 考慮到行動輸出的概率和爲一,爲了保證reward越大的有更大的概率被sample到,需要加上baseline b 考慮到當先action對過去的reward沒有影
相關文章
相關標籤/搜索