深度強化學習之Policy Gradient & Actor-Critic Model & A3C

policy gradient actor-critic A3C policy gradient 在之前的DQN是進行value function的approximation,是value-vased RL。這次要講的是policy-based RL。 對於RL的policy直接進行參數表示:比如可以輸入state(一幅圖片,一個feature vector),然後由帶有參數的某種算法(比如lin
相關文章
相關標籤/搜索