強化學習（6）：Actor-Critic（演員評論家）算法

時間 2021-01-13

標籤強化學習简体版

原文原文鏈接

本文主要講解有關 Actor-Critic 算法的有關知識。一、Actor Critic 算法 Actor-Critic 算法合併了以策略爲基礎的 Policy Gradient和以值爲基礎的 Q-Learning 兩類強化學習算法，該算法中將前者當作 Actor，用來基於概率選擇行爲。將後者當作 Critic，用來評判 Actor 的行爲得分，然後 Actor 又會根據 Critic 的評分修

>>阅读原文<<