DQN從入門到放棄學習總結（2）

時間 2021-01-04

標籤強化學習算法简体版

原文原文鏈接

1、動作價值函數：每個狀態對應多種動作，我們考率在某個狀態下執行不同動作所獲得的價值，通過其大小，便可選擇價值最大的來執行。Action-Value function：。同樣，也是用reward來表示，但是此處reward是執行動作以後獲得的，之前state對應的reward則是多種動作對應的reward的期望。動作-價值函數表示如下：此處包含策略，即在策略下的動作價值。因爲對於每一個動作，

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。