深度強化學習(二)—— Policy Gradients

一、Policy-based RL概述 1.Policy-based RL起源 在學習Policy Gradiens(PG)之前,我們將強化學習的方法分成兩類進行考慮: - 一類是value-based方法,需要計算價值函數(value function),根據自己認爲的高價值選擇行爲(action)的方法,如Q Learning, sara, Deep Q Network(DQN) - 另一類是
相關文章
相關標籤/搜索