強化學習(五)：Sarsa算法與Q-Learning算法

時間 2021-01-08

原文原文鏈接

上一節主要講了Monte-Carlo learning，TD learning， TD(λ) 。這三個方法都是爲了在給定策略下來估計價值函數V(s)。只不過Monte-Carlo learning需要得到一個完整的episode才能進行一次v值更新，而TD learning則不用，它可以每走一步就更新一次v值。但是我們的目標是想得到最優策略，所以我們這一講就是爲了通過價值函數，反過來改進策略。兩

>>阅读原文<<