強化學習--QLearning

1.概述: QLearning基於值函數的方法,不同與policy gradient的方法,Qlearning是預測值函數,通過值函數來選擇 值函數最大的action,而policy gradient直接預測出action。 Q-learning 是一種基於值函數估計的強化學習方法,Policy Gradient是一種策略搜索強化學習方法。 兩者是求解強化學習問題的不同方法,如果熟悉監督學習, 前
相關文章
相關標籤/搜索