DQN從入門到放棄學習總結(2)

1、動作價值函數: 每個狀態對應多種動作,我們考率在某個狀態下執行不同動作所獲得的價值,通過其大小,便可選擇價值最大的來執行。Action-Value function:。同樣,也是用reward來表示,但是此處reward是執行動作以後獲得的,之前state對應的reward則是多種動作對應的reward的期望。 動作-價值函數表示如下: 此處包含策略,即在策略下的動作價值。因爲對於每一個動作,
相關文章
相關標籤/搜索