【強化學習筆記】4.3 無模型的強化學習方法-蒙特卡羅算法與重要性採樣

異策略與重要性採樣 因爲異策略中的行動策略和目標策略不一樣,也就是說行動策略產生的數據分佈與目標策略的數據分佈存在偏差,即即行動策略的軌跡概率分佈和改善策略的軌跡概率分佈不一樣,因此在使用數據進行目標策略評估的時候需要考慮該影響,常用的方法是重要性採樣。(重要性採樣的原理見文末圖片) 重要性採樣評估目標策略的值函數 在目標策略下,一次實驗的概率爲: Pr(St,At,St+1,...ST)=∏T−
相關文章
相關標籤/搜索