（十三）從零開始學人工智能-強化學習:值函數近似和策略梯度

時間 2020-12-29

標籤人工智能简体版

原文原文鏈接

強化學習–值函數近似和策略梯度文章目錄強化學習--值函數近似和策略梯度 1. 值函數近似 1.1 線性函數近似 1.1.1 狀態價值函數近似 1.1.2 動作價值函數近似 1.2 深度神經網絡近似 2. 策略梯度聲明參考資料前兩節內容都是強化學習的一些基礎理論，只能解決一些中小規模的問題，實際情況下很多價值函數需要一張大表來存儲，獲取某一狀態或動作價值的時候通常需要一個查表操作，這對於

>>阅读原文<<