DDPG本質：將策略網絡和價值網絡分開 || 經驗池做用、目標網絡做用、DDQN簡介

時間 2020-08-08

原文原文鏈接

經驗池做用：深度學習要求輸入數據獨立同分布，使用經驗池能夠使狀態間相互獨立網絡目標值網絡做用：計算網絡目標值須要用到現有的Q值，用一個更新較慢的網絡專門提供此Q值，進而提升訓練的穩定性和收斂性，而原網絡的Q值僅用於動做選擇和更新參數函數 DQN：只有一個網絡學習 Nature DQN：用目標網絡計算目標值yblog Double DQN：因真實策略具備隨機性，所以上圖max操做使估計值函數比真實

>>阅读原文<<