Reinforcement Learning - An Introduction強化學習讀書筆記 Ch5.8-Ch6.3

時間 2021-01-12

原文原文鏈接

5.8 折扣敏感的重要度採樣之前的離線算法都需要爲回報計算重要度採樣的權重，它把回報視爲單一整體，而不考慮回報是每個時刻的折後收益之和這一內部結構。假設幕持續100步並且 γ = 0 \gamma=0 γ=0，那麼0時刻的回報就會是 G 0 = R 1 G_0=R_1 G0=R1，但它的重要度採樣卻會是100個因子之積，也就是：在普通重要度採樣中會用整個乘積對回報進行縮放，但是實際上只需

>>阅读原文<<