深度強化學習(文獻篇)—— 從 DQN、DDPG、NAF 到 A3C

本身第一篇 paper 就是用 MDP 解決資源優化問題,想來那時寫個東西真是艱難啊。 彼時倒沒想到這個數學工具,現在會這麼火,還衍生了新的領域——強化學習。固然如今研究的內容已有了很大拓展。 這段時間會作個深度強化學習的專題,包括基礎理論、最新文獻和實踐三大部分。web DRL 的核心思想是,用神經網絡來表徵值函數或者參數化 policy,從而使用梯度優化方法來優化損失。 本篇介紹近年來 DRL
相關文章
相關標籤/搜索