強化學習（三）——Policy Gradients、Actor Critic、DDPG、A3C四種算法思想

時間 2021-01-12

原文原文鏈接

一、Policy Gradients算法在強化學習（二）中講過的Q learning算法是根據分析Q值來選取動作，那麼本節介紹一個直接輸出動作的算法：Policy Gradients。該算法可以在一個連續區間輸出動作（輸出的動作可以是連續值）。Policy Gradients通過更新神經網絡來決定輸出策略，那神經網絡是如何進行更新呢？利用reward值來引導某一個動作是否應該增加被

>>阅读原文<<