強化學習--QLearning

時間 2020-12-29

原文原文鏈接

1.概述： QLearning基於值函數的方法，不同與policy gradient的方法，Qlearning是預測值函數，通過值函數來選擇值函數最大的action，而policy gradient直接預測出action。 Q-learning 是一種基於值函數估計的強化學習方法，Policy Gradient是一種策略搜索強化學習方法。兩者是求解強化學習問題的不同方法，如果熟悉監督學習，前

>>阅读原文<<