(十三)從零開始學人工智能-強化學習:值函數近似和策略梯度

強化學習–值函數近似和策略梯度 文章目錄 強化學習--值函數近似和策略梯度 1. 值函數近似 1.1 線性函數近似 1.1.1 狀態價值函數近似 1.1.2 動作價值函數近似 1.2 深度神經網絡近似 2. 策略梯度 聲明 參考資料 前兩節內容都是強化學習的一些基礎理論 ,只能解決一些中小規模的問題,實際情況下很多價值函數需要一張大表來存儲,獲取某一狀態或動作價值的時候通常需要一個查表操作,這對於
相關文章
相關標籤/搜索