Paddle強化學習從入門到實踐（Day4）基於策略梯度求解RL：PG算法

時間 2020-07-26

標籤 paddle 強化學習入門實踐 day4 day 基於策略梯度求解算法简体版

原文原文鏈接

基於值與基於決策在強化學習中，有兩大類方法，一種基於值（Value-based），一種基於策略（Policy-based）python Value-based的算法的典型表明爲Q-learning和SARSA，將Q函數優化到最優，再根據Q函數取最優策略。 Policy-based的算法的典型表明爲Policy Gradient，直接優化策略函數。二者的區別一目瞭然，即一種是根據價值以肯定的方案

>>阅读原文<<