強化學習Sarsa，Q-learning的收斂性最優性區別（on-policy跟off-policy的區別）

時間 2020-05-23

標籤強化學習 sarsa learning 收斂性最優性區別 policy 简体版

原文原文鏈接

1. Sarsa 與Q-learning Q-learning在每一步TD中貪心的獲取下一步最優的狀態動做值函數。而Sarsa則是e-greedy的選取TD中的下一個狀態動做值函數。在這種狀況下，Q-learning更傾向於找到一條最優policy，而Sarsa則會找到一條次優的policy。這是因爲Sarsa在TD偏差中隨機的選取下一個狀態動做值函數，這樣可能會使總體的狀態值函數下降。以下示例進

>>阅读原文<<