強化學習(五)：Sarsa算法與Q-Learning算法

時間 2020-05-23

標籤強化學習 sarsa 算法 learning 简体版

原文原文鏈接

上一節主要講了Monte-Carlo learning，TD learning， TD(λ) 。這三個方法都是爲了在給定策略下來估計價值函數V(s)。只不過Monte-Carlo learning須要獲得一個完整的episode才能進行一次v值更新，而TD learning則不用，它能夠每走一步就更新一次v值。可是咱們的目標是想獲得最優策略，因此咱們這一講就是爲了經過價值函數，反過來改進策略。二

>>阅读原文<<