基於Policy的強化學習算法

時間 2020-12-30

原文原文鏈接

在文章基於Value的強化學習算法中，介紹了Q-learning和SARSA兩種經典的強化學習算法。在本篇文章中，將介紹一下基於Policy的經典強化學習算法——Policy Gradient。 Value-based的不足 Value-based強化學習算法，是根據當前狀態下的Q值來選取動作去執行。因此，一旦Q值表收斂，那麼對於某一個狀態，其選擇的動作將是唯一確定的，即確定性的策略。這就導致

>>阅读原文<<