深度強化學習（文獻篇）—— 從 DQN、DDPG、NAF 到 A3C

時間 2019-12-15

標籤深度強化學習文獻 dqn ddpg naf a3c 欄目 C&C++ 简体版

原文原文鏈接

本身第一篇 paper 就是用 MDP 解決資源優化問題，想來那時寫個東西真是艱難啊。彼時倒沒想到這個數學工具，現在會這麼火，還衍生了新的領域——強化學習。固然如今研究的內容已有了很大拓展。這段時間會作個深度強化學習的專題，包括基礎理論、最新文獻和實踐三大部分。web DRL 的核心思想是，用神經網絡來表徵值函數或者參數化 policy，從而使用梯度優化方法來優化損失。本篇介紹近年來 DRL

>>阅读原文<<