《強化學習》 DP動態規劃

時間 2021-08-15

原文原文鏈接

獎賞設計累計獎賞和折扣累計獎賞數學上看，折扣獎賞機制可以將累計回報轉化爲遞推的形式： Gt=Rt+γ(Rt+1+γRt+2+...)=Rt+γGt+1 G t = R t + γ ( R t + 1 + γ R t + 2 + . . . ) = R t + γ G t + 1 折扣是一種固定效應模型獎賞設計：不要平移，獎勵做什麼而不是怎麼做獎賞設計：縮放，塑形貝爾曼等式狀態值函數值

>>阅读原文<<