Actor-Critic強化學習教程

注:actor以及critic可以分別看作是policy以及value function的同義詞。 Actor-Critic算法是目前一個非常流行常用的強化學習算法,廣泛應用於機器人,能源,經濟等領域。通過low-variance(低方差)以及policy gradient(策略梯度)在線搜索最優策略,可以處理連續的state(狀態)以及連續的action(行爲)。 強化學習的方法可以分爲以下三種
相關文章
相關標籤/搜索