筆記：強化學習策略梯度算法

時間 2021-01-12

標籤強化學習简体版

原文原文鏈接

Q Learning ，SARSA，DQN 本質上都是學習一個價值函數 Q函數。在環境決策時需要首先確定當前的狀態，然後根據Q（s,a）選擇一個價值較高的動作去執行策略梯度算法策略梯度算法和他們都不同。他不再去學習價值函數 Q函數，而是直接通過模型比如神經網絡輸入需要採取的動作以Cartpole遊戲爲例，平臺上面有一個直立的杆，我們不斷左右移動平臺，每一個時刻都可以獲得獎勵rew

>>阅读原文<<