強化學習——A3C,GA3C

一、問題與貢獻 存在的問題  不同類型的深度神經網絡爲 DRL 中策略優化任務提供了高效運行的表徵形式。 爲了緩解傳統策略梯度方法與神經網絡結合時出現的不穩定性,各類深度策略梯度方法(如 DDPG、 SVG 等)都採用了經驗回放機制來消除訓練數據間的相關性。 然而經驗回放機制存在兩個問題: agent 與環境的每次實時交互都需要耗費很多的內存和計算力; 經驗回放機制要求 agent 採用離策略(o
相關文章
相關標籤/搜索