深度強化學習（二）—— Policy Gradients

時間 2021-01-13

原文原文鏈接

一、Policy-based RL概述 1.Policy-based RL起源在學習Policy Gradiens（PG）之前，我們將強化學習的方法分成兩類進行考慮： - 一類是value-based方法，需要計算價值函數（value function），根據自己認爲的高價值選擇行爲（action）的方法，如Q Learning, sara, Deep Q Network（DQN） - 另一類是

>>阅读原文<<