機器學習（二十九）——Temporal-Difference Learning

時間 2021-01-05

原文原文鏈接

https://antkillerfarm.github.io/ Temporal-Difference Learning（續） TD vs. MC—3 再來看如下示例：已現有兩個狀態(A和B)，MDP未知，衰減係數爲1，有如下表所示8個完整Episode的經驗及對應的即時獎勵，其中除了第1個Episode有狀態轉移外，其餘7個均只有一個狀態。 Episode 狀態轉移及獎勵 1 A:0,B:0

>>阅读原文<<