強化學習on-policy跟off-policy的區別

時間 2021-01-13

原文原文鏈接

on-policy：生成樣本的policy（value function）跟網絡更新參數時使用的policy（value function）相同。典型爲SARAS算法，基於當前的policy直接執行一次動作選擇，然後用這個樣本更新當前的policy，因此生成樣本的policy和學習時的policy相同，算法爲on-policy算法。該方法會遭遇探索-利用的矛盾，光利用目前已知的最優選擇，可能學不到

>>阅读原文<<