Actor-Critic強化學習教程

時間 2021-01-12

原文原文鏈接

注：actor以及critic可以分別看作是policy以及value function的同義詞。 Actor-Critic算法是目前一個非常流行常用的強化學習算法，廣泛應用於機器人，能源，經濟等領域。通過low-variance（低方差）以及policy gradient（策略梯度）在線搜索最優策略，可以處理連續的state（狀態）以及連續的action（行爲）。強化學習的方法可以分爲以下三種

>>阅读原文<<