深度——強化學習、深度森林

Sutton’sTD(0)算法:考慮當前回報和下一狀態的估計值,它的更新公式 : • Q-learing算法:它和Sutton’sTD(0)算法類似,只是將動作集A也考慮進來。 定義動作價值函數Q(s,a), 深度強化學習 DRL 深度學習感知能力強;強化學習決策能力強;結合更好! 根據環境做出的獎勵來決策 典型應用:DQN 把Q-learning中的價值函數用深度神經網絡來近似。 包括主網絡和目
相關文章
相關標籤/搜索