筆記:強化學習 策略梯度算法

Q Learning ,SARSA,DQN 本質上都是學習一個價值函數 Q函數。 在環境決策時 需要首先確定當前的狀態,然後根據Q(s,a)選擇一個價值較高的動作去執行 策略梯度算法 策略梯度算法和他們都不同。 他不再去學習價值函數 Q函數 ,而是直接通過模型 比如神經網絡 輸入需要採取的動作 以Cartpole遊戲爲例,平臺上面有一個直立的杆,我們不斷左右移動平臺,每一個時刻都可以獲得獎勵rew
相關文章
相關標籤/搜索