強化學習中:神經網絡與梯度下降

一、 參考:http://www.javashuo.com/article/p-ezzpmjxp-eg.html 這裏的關係是,主要用強化學習方法控制cartpole,同時由於是連續狀態動作,所以用到了神經網絡來擬合策略函數,策略梯度在這裏的作用,是對神經網絡的參數進行更新,是更新參數的一種方法。 1,此處用到三層神經網絡:輸入層,隱藏層,輸出層 因爲此處需要輸出的動作只有三個,所以相當於用神經網
相關文章
相關標籤/搜索