深度——強化學習、深度森林

時間 2021-01-01

標籤深度學習简体版

原文原文鏈接

Sutton’sTD（0）算法：考慮當前回報和下一狀態的估計值，它的更新公式： • Q-learing算法：它和Sutton’sTD(0)算法類似，只是將動作集A也考慮進來。定義動作價值函數Q（s,a），深度強化學習 DRL 深度學習感知能力強；強化學習決策能力強；結合更好！根據環境做出的獎勵來決策典型應用：DQN 把Q-learning中的價值函數用深度神經網絡來近似。包括主網絡和目

>>阅读原文<<