深度學習（四十一）——深度強化學習（4）A2C & A3C, DDPG

時間 2021-01-16

原文原文鏈接

A2C & A3C Actor-Critic一般簡稱AC算法。針對它的一般用法參見《機器學習（三十五）》。 AC算法也可用於DRL領域，具體的做法和DQN類似：一個Actor網絡，用來近似V值。一個Critic網絡，用來近似Q值。這裏有個小技巧： Actor網絡和Critic網絡可以共享網絡參數，兩者僅最後幾層使用不同結構和參數。（參見下圖A3C的圖）針對AC的改進，衍生出了A2C和A3C

>>阅读原文<<