A3C(Asynchronous advantage actor-critic )/異步優勢actor-critic 算法

      回憶下之前的DQN算法,爲了方便收斂使用了經驗回放的技巧。那麼我們的Actor-Critic是不是也可以使用經驗回放的技巧呢?當然可以!不過A3C更進一步,還克服了一些經驗回放的問題。經驗回放有什麼問題呢? 回放池經驗數據相關性太強,用於訓練的時候效果很可能不佳。舉個例子,我們學習下棋,總是和同一個人下,期望能提高棋藝。這當然沒有問題,但是到一定程度就再難提高了,此時最好的方法是另尋高
相關文章
相關標籤/搜索