各種AC系列算法的僞代碼

時間 2021-01-02

原文原文鏈接

TD3的技巧技巧一：裁剪的雙Q學習(Clipped Double-Q learning). 與DDPG學習一個Q函數不同的是，TD3學習兩個Q函數(因此稱爲twin)，並且利用這兩個Q函數中較小的哪個Q值來構建貝爾曼誤差函數中的目標網絡。技巧二：延遲的策略更新(「Delayed」 Policy Updates). TD3算法中，策略(包括目標策略網絡)更新的頻率要低於Q函數的更新頻率。文章建議

>>阅读原文<<