Policy gradient(策略梯度詳解)

文章目錄 策略梯度基本知識 什麼是策略梯度? 強化學習案例 策略梯度公式詳解 如何使你的損失函數更好 增加一個基準 爲每一個action分配不同的權重 策略梯度基本知識 什麼是策略梯度? 直接根據狀態輸出動作或者動作的概率。那麼怎麼輸出呢,最簡單的就是使用神經網絡啦!我們使用神經網絡輸入當前的狀態,網絡就可以輸出我們在這個狀態下采取每個動作的概率,那麼網絡應該如何訓練來實現最終的收斂呢?我們之前在
相關文章
相關標籤/搜索