DDPG本質:將策略網絡和價值網絡分開 || 經驗池做用、目標網絡做用、DDQN簡介

經驗池做用:深度學習要求輸入數據獨立同分布,使用經驗池能夠使狀態間相互獨立網絡 目標值網絡做用:計算網絡目標值須要用到現有的Q值,用一個更新較慢的網絡專門提供此Q值,進而提升訓練的穩定性和收斂性,而原網絡的Q值僅用於動做選擇和更新參數函數 DQN:只有一個網絡學習 Nature DQN:用目標網絡計算目標值yblog Double DQN:因真實策略具備隨機性,所以上圖max操做使估計值函數比真實
相關文章
相關標籤/搜索