強化學習——off-policy

時間 2021-01-13

原文原文鏈接

Table of Contents p(x)/q(x)是一個權重這個取樣的過程就是與環境互動出現一個軌跡的過程橫座標就是各種行爲，紅線是對應的reward，藍線是原本的action的分佈，也是與環境互動的取樣分佈我們用綠線的採樣，求藍線的梯度，對藍線的參數進行修改,importance samping 保證了綠線採樣得到的是藍線的梯度分子分母差別過大會導致，效果不好優化參數的同時，保持行

>>阅读原文<<