深度強化學習（理論篇）—— 從 Critic-only、Actor-only 到 Actor-Critic

時間 2021-01-16

原文原文鏈接

自己第一篇 paper 就是用 MDP 解決資源優化問題，想來那時寫個東西真是艱難啊。彼時倒沒想到這個數學工具，如今會這麼火，還衍生了新的領域——強化學習。當然現在研究的內容已有了很大拓展。這段時間會做個深度強化學習的專題，包括基礎理論、最新文獻和實踐三大部分。 1 概述 1.1 強化學習 v.s. 監督學習強化學習，與監督學習、無監督學習並列，作爲機器學習的三大類。強化學習，研究的是 ag

>>阅读原文<<