Policy gradient(策略梯度詳解)

時間 2020-12-24

原文原文鏈接

文章目錄策略梯度基本知識什麼是策略梯度？強化學習案例策略梯度公式詳解如何使你的損失函數更好增加一個基準爲每一個action分配不同的權重策略梯度基本知識什麼是策略梯度？直接根據狀態輸出動作或者動作的概率。那麼怎麼輸出呢，最簡單的就是使用神經網絡啦！我們使用神經網絡輸入當前的狀態，網絡就可以輸出我們在這個狀態下采取每個動作的概率，那麼網絡應該如何訓練來實現最終的收斂呢？我們之前在