【強化學習筆記】4.3 無模型的強化學習方法-蒙特卡羅算法與重要性採樣

時間 2021-01-13

標籤強化學習简体版

原文原文鏈接

異策略與重要性採樣因爲異策略中的行動策略和目標策略不一樣，也就是說行動策略產生的數據分佈與目標策略的數據分佈存在偏差，即即行動策略的軌跡概率分佈和改善策略的軌跡概率分佈不一樣，因此在使用數據進行目標策略評估的時候需要考慮該影響，常用的方法是重要性採樣。(重要性採樣的原理見文末圖片) 重要性採樣評估目標策略的值函數在目標策略下，一次實驗的概率爲： Pr(St,At,St+1,...ST)=∏T−

>>阅读原文<<