4.蒙特卡洛(Monte-Carlo, MC)+時序差分(Temporal Difference, TD)

目錄 深度強化學習目錄 簡介 之前講的PG算法和PPO算法,都是Policy-based的方法,接下來我們要講Value-based的方法。之前說過了,P-B方法和V-B方法的區別在於前者訓練的是策略本身(actor),而後者訓練的是一種評判標準(critic)。critic能根據你輸入的狀態/動作,憑藉策略 π \pi π來輸出對應的值函數。值函數有兩種,一種是V(狀態-值函數),一種是Q(狀態
相關文章
相關標籤/搜索