基礎算法篇（八），異步強化學習方法與A3C

時間 2021-01-12

原文原文鏈接

這一篇，我們介紹一種全新的強化學習方法，稱爲「異步」強化學習方法。首先，這裏沒有用算法（algorithm）而是用方法（method），是因爲這裏提供的是一種與前面相關算法相兼容的新的實現思路，而不是本身在算法方面的革新。其次，我們看「異步」這個詞，它已經很明確的表示了這個方法的特點，簡單來說，其實就是將「並行」的思路代入前面我們提到的各種value-based或policy-based方法中。

>>阅读原文<<