強化學習——A3C,GA3C

時間 2021-01-16

原文原文鏈接

一、問題與貢獻存在的問題不同類型的深度神經網絡爲 DRL 中策略優化任務提供了高效運行的表徵形式。爲了緩解傳統策略梯度方法與神經網絡結合時出現的不穩定性，各類深度策略梯度方法（如 DDPG、 SVG 等）都採用了經驗回放機制來消除訓練數據間的相關性。然而經驗回放機制存在兩個問題： agent 與環境的每次實時交互都需要耗費很多的內存和計算力；經驗回放機制要求 agent 採用離策略（o

>>阅读原文<<