強化學習(五):Sarsa算法與Q-Learning算法

上一節主要講了Monte-Carlo learning,TD learning, TD(λ) 。這三個方法都是爲了在給定策略下來估計價值函數V(s)。只不過Monte-Carlo learning須要獲得一個完整的episode才能進行一次v值更新,而TD learning則不用,它能夠每走一步就更新一次v值。 可是咱們的目標是想獲得最優策略,因此咱們這一講就是爲了經過價值函數,反過來改進策略。二
相關文章
相關標籤/搜索