強化學習(6):Actor-Critic(演員評論家)算法

本文主要講解有關 Actor-Critic 算法的有關知識。 一、Actor Critic 算法 Actor-Critic 算法合併了以策略爲基礎的 Policy Gradient和以值爲基礎的 Q-Learning 兩類強化學習算法,該算法中將前者當作 Actor,用來基於概率選擇行爲。將後者當作 Critic,用來評判 Actor 的行爲得分,然後 Actor 又會根據 Critic 的評分修
相關文章
相關標籤/搜索