強化學習(三)——Policy Gradients、Actor Critic、DDPG、A3C四種算法思想

一、Policy Gradients算法        在強化學習(二)中講過的Q learning算法是根據分析Q值來選取動作,那麼本節介紹一個直接輸出動作的算法:Policy Gradients。該算法可以在一個連續區間輸出動作(輸出的動作可以是連續值)。Policy Gradients通過更新神經網絡來決定輸出策略,那神經網絡是如何進行更新呢?利用reward值來引導某一個動作是否應該增加被
相關文章
相關標籤/搜索