各種AC系列算法的僞代碼

TD3的技巧 技巧一:裁剪的雙Q學習(Clipped Double-Q learning). 與DDPG學習一個Q函數不同的是,TD3學習兩個Q函數(因此稱爲twin),並且利用這兩個Q函數中較小的哪個Q值來構建貝爾曼誤差函數中的目標網絡。 技巧二:延遲的策略更新(「Delayed」 Policy Updates). TD3算法中,策略(包括目標策略網絡)更新的頻率要低於Q函數的更新頻率。文章建議
相關文章
相關標籤/搜索