A3C(Asynchronous advantage actor-critic )/異步優勢actor-critic 算法

時間 2021-01-12

原文原文鏈接

回憶下之前的DQN算法，爲了方便收斂使用了經驗回放的技巧。那麼我們的Actor-Critic是不是也可以使用經驗回放的技巧呢？當然可以！不過A3C更進一步，還克服了一些經驗回放的問題。經驗回放有什麼問題呢？回放池經驗數據相關性太強，用於訓練的時候效果很可能不佳。舉個例子，我們學習下棋，總是和同一個人下，期望能提高棋藝。這當然沒有問題，但是到一定程度就再難提高了，此時最好的方法是另尋高