Reinforcement Learning - An Introduction強化學習讀書筆記 Ch5.8-Ch6.3

5.8 折扣敏感的重要度採樣 之前的離線算法都需要爲回報計算重要度採樣的權重,它把回報視爲單一整體,而不考慮回報是每個時刻的折後收益之和這一內部結構。 假設幕持續100步並且 γ = 0 \gamma=0 γ=0,那麼0時刻的回報就會是 G 0 = R 1 G_0=R_1 G0​=R1​,但它的重要度採樣卻會是100個因子之積,也就是: 在普通重要度採樣中會用整個乘積對回報進行縮放,但是實際上只需
相關文章
相關標籤/搜索