解讀DDPG算法結構

算法流程 1.主要的架構可以分解成以下幾部分進行理解:        *首先DDPG的特點是actor雖然是PG的架構,但是actor輸出的動作值並不是一個概率分佈,而是一個確定性的連續動作選擇(可以適用連續動作情況),其網絡就是給予狀態作爲輸入,然後網絡會給予一個動作作爲輸出,表示在這個狀態情況下,最該採取的動作值, 然後對其這個online網絡的更新是根據critic網絡提供更新依據,也就是下
相關文章
相關標籤/搜索