強化學習(8):Asynchronous Advantage Actor-Critic(A3C)算法

本文主要講解有關 A3C 算法的相關內容。 一、A3C 算法 直接引用莫煩老師的話來介紹 A3C 算法:Google DeepMind 提出的一種解決 Actor-Critic 不收斂問題的算法。它會創建多個並行的環境,讓多個擁有副結構的 agent 同時在這些並行環境上更新主結構中的參數。並行中的 agent 們互不干擾,而主結構的參數更新受到副結構提交更新的不連續性干擾,所以更新的相關性被降低
相關文章
相關標籤/搜索