基於Policy的強化學習算法

在文章基於Value的強化學習算法中,介紹了Q-learning和SARSA兩種經典的強化學習算法。在本篇文章中,將介紹一下基於Policy的經典強化學習算法——Policy Gradient。 Value-based的不足 Value-based強化學習算法,是根據當前狀態下的Q值來選取動作去執行。因此,一旦Q值表收斂,那麼對於某一個狀態 ,其選擇的動作 將是唯一確定的,即確定性的策略。這就導致
相關文章
相關標籤/搜索