強化學習中：神經網絡與梯度下降

時間 2020-12-24

原文原文鏈接

一、參考：http://www.javashuo.com/article/p-ezzpmjxp-eg.html 這裏的關係是，主要用強化學習方法控制cartpole，同時由於是連續狀態動作，所以用到了神經網絡來擬合策略函數，策略梯度在這裏的作用，是對神經網絡的參數進行更新，是更新參數的一種方法。 1，此處用到三層神經網絡：輸入層，隱藏層，輸出層因爲此處需要輸出的動作只有三個，所以相當於用神經網

>>阅读原文<<