強化學習算法Policy Gradient

時間 2019-12-08

標籤強化學習算法 policy gradient 简体版

原文原文鏈接

1 算法的優缺點

　1.1　優勢

　　在DQN算法中，神經網絡輸出的是動做的q值，這對於一個agent擁有少數的離散的動做仍是能夠的。可是若是某個agent的動做是連續的，這無疑對DQN算法是一個巨大的挑戰，爲了解決這個問題，前輩們將基於值的方法改爲了基於策略的方法，即輸出動做的機率。算法

　1.2　缺點

　　策略梯度算法應用將來損失的return做爲更新迭代的依據，即在一個回合事後，在這一回閤中，若執行的某一動做的動做價值R大，則會加在下一回合選擇這一動做的機率，反之，若執行的某一動做的動做價值R小，則會在下一回合選擇這一動做的機率減少。所以，要想用return作爲預測動做機率的神經網絡更新的依據，就必須先擁有一個決策鏈，才能將return計算出來，所以每個更新是在一個回合結束後才能更新一個。更新的速率比較慢網絡