機器學習(二十九)——Temporal-Difference Learning

https://antkillerfarm.github.io/ Temporal-Difference Learning(續) TD vs. MC—3 再來看如下示例: 已現有兩個狀態(A和B),MDP未知,衰減係數爲1,有如下表所示8個完整Episode的經驗及對應的即時獎勵,其中除了第1個Episode有狀態轉移外,其餘7個均只有一個狀態。 Episode 狀態轉移及獎勵 1 A:0,B:0
相關文章
相關標籤/搜索