深度強化學習之Policy Gradient & Actor-Critic Model & A3C

時間 2021-01-12

標籤深度強化學習 A3C policy gradient actor-crit 欄目 C&C++ 简体版

原文原文鏈接

policy gradient actor-critic A3C policy gradient 在之前的DQN是進行value function的approximation，是value-vased RL。這次要講的是policy-based RL。對於RL的policy直接進行參數表示：比如可以輸入state（一幅圖片，一個feature vector），然後由帶有參數的某種算法（比如lin

>>阅读原文<<