深度學習(四十一)——深度強化學習(4)A2C & A3C, DDPG

A2C & A3C Actor-Critic一般簡稱AC算法。針對它的一般用法參見《機器學習(三十五)》。 AC算法也可用於DRL領域,具體的做法和DQN類似: 一個Actor網絡,用來近似V值。 一個Critic網絡,用來近似Q值。 這裏有個小技巧: Actor網絡和Critic網絡可以共享網絡參數,兩者僅最後幾層使用不同結構和參數。(參見下圖A3C的圖) 針對AC的改進,衍生出了A2C和A3C
相關文章
相關標籤/搜索