Paddle強化學習從入門到實踐 (Day4)基於策略梯度求解RL:PG算法

基於值與基於決策 在強化學習中,有兩大類方法,一種基於值(Value-based),一種基於策略(Policy-based)python Value-based的算法的典型表明爲Q-learning和SARSA,將Q函數優化到最優,再根據Q函數取最優策略。 Policy-based的算法的典型表明爲Policy Gradient,直接優化策略函數。 二者的區別一目瞭然,即一種是根據價值以肯定的方案
相關文章
相關標籤/搜索