強化學習——off-policy

Table of Contents p(x)/q(x)是一個權重 這個取樣的過程就是與環境互動出現一個軌跡的過程 橫座標就是各種行爲,紅線是對應的reward,藍線是原本的action的分佈,也是與環境互動的取樣分佈 我們用綠線的採樣,求藍線的梯度,對藍線的參數進行修改,importance samping 保證了綠線採樣得到的是藍線的梯度 分子分母差別過大會導致,效果不好 優化參數的同時,保持行
相關文章
相關標籤/搜索