基礎算法篇(八),異步強化學習方法與A3C

這一篇,我們介紹一種全新的強化學習方法,稱爲「異步」強化學習方法。首先,這裏沒有用算法(algorithm)而是用方法(method),是因爲這裏提供的是一種與前面相關算法相兼容的新的實現思路,而不是本身在算法方面的革新。其次,我們看「異步」這個詞,它已經很明確的表示了這個方法的特點,簡單來說,其實就是將「並行」的思路代入前面我們提到的各種value-based或policy-based方法中。
相關文章
相關標籤/搜索