強化學習on-policy跟off-policy的區別

on-policy:生成樣本的policy(value function)跟網絡更新參數時使用的policy(value function)相同。典型爲SARAS算法,基於當前的policy直接執行一次動作選擇,然後用這個樣本更新當前的policy,因此生成樣本的policy和學習時的policy相同,算法爲on-policy算法。該方法會遭遇探索-利用的矛盾,光利用目前已知的最優選擇,可能學不到
相關文章
相關標籤/搜索