強化學習Sarsa,Q-learning的收斂性最優性區別(on-policy跟off-policy的區別)

1. Sarsa 與Q-learning Q-learning在每一步TD中貪心的獲取下一步最優的狀態動做值函數。而Sarsa則是e-greedy的選取TD中的下一個狀態動做值函數。在這種狀況下,Q-learning更傾向於找到一條最優policy,而Sarsa則會找到一條次優的policy。這是因爲Sarsa在TD偏差中隨機的選取下一個狀態動做值函數,這樣可能會使總體的狀態值函數下降。以下示例進
相關文章
相關標籤/搜索