強化學習-有模型學習--值函數的T步累積獎賞遞歸推導過程

 注:Vt-1的前面係數寫錯了,少乘了T-1。blog
相關文章
相關標籤/搜索