DQN發展歷程(一)htm
DQN發展歷程(二)blog
DQN發展歷程(三)get
DQN發展歷程(四)it
DQN發展歷程(五)class
不基於模型(Model-free)的預測
蒙特卡羅方法
時序差分方法
- 蒙特卡羅方法須要得到從開始到終結的一條完整的狀態序列,以求解每一個狀態的值,時序差分方法則不須要。根據貝爾曼不等式,只須要從當前狀態到下一狀態求解。
- 時序差分方法每步都更新狀態值,而蒙特卡羅方法須要等到全部狀態結束才更新。
- 蒙特卡羅方法使用最後的目標來求解狀態值,而時序差分使用下一狀態的估計在每一步調整狀態值。
- 蒙特卡羅方法是無偏估計方差較大,時序差分則是有篇估計但估計方差小。
多步的時序差分方法
- 時序差分方法使用當前狀態值和下一狀態值更新當前狀態值,若是使用當前狀態值和以後多步的狀態值更新當前狀態值,就是多步的時序差分方法。
- 當步數到最後的終結狀態時,即是蒙特卡羅方法。
- 當步數到下一狀態時,即是時序差分方法。
- 多步的時序差分方法,分爲前向和後向的時序差分方法。
參考
david siver 課程model
https://home.cnblogs.com/u/pinard/方法