深度強化學習(理論篇)—— 從 Critic-only、Actor-only 到 Actor-Critic

自己第一篇 paper 就是用 MDP 解決資源優化問題,想來那時寫個東西真是艱難啊。 彼時倒沒想到這個數學工具,如今會這麼火,還衍生了新的領域——強化學習。當然現在研究的內容已有了很大拓展。 這段時間會做個深度強化學習的專題,包括基礎理論、最新文獻和實踐三大部分。 1 概述 1.1 強化學習 v.s. 監督學習 強化學習,與監督學習、無監督學習並列,作爲機器學習的三大類。強化學習,研究的是 ag
相關文章
相關標籤/搜索