強化學習(五):Sarsa算法與Q-Learning算法

上一節主要講了Monte-Carlo learning,TD learning, TD(λ) 。這三個方法都是爲了在給定策略下來估計價值函數V(s)。只不過Monte-Carlo learning需要得到一個完整的episode才能進行一次v值更新,而TD learning則不用,它可以每走一步就更新一次v值。 但是我們的目標是想得到最優策略,所以我們這一講就是爲了通過價值函數,反過來改進策略。兩
相關文章
相關標籤/搜索