強化學習（8）：Asynchronous Advantage Actor-Critic（A3C）算法

時間 2021-01-12

原文原文鏈接

本文主要講解有關 A3C 算法的相關內容。一、A3C 算法直接引用莫煩老師的話來介紹 A3C 算法：Google DeepMind 提出的一種解決 Actor-Critic 不收斂問題的算法。它會創建多個並行的環境，讓多個擁有副結構的 agent 同時在這些並行環境上更新主結構中的參數。並行中的 agent 們互不干擾，而主結構的參數更新受到副結構提交更新的不連續性干擾，所以更新的相關性被降低

>>阅读原文<<