RL之PG：基於TF利用策略梯度算法玩Cartpole遊戲實現智能得高分

時間 2020-12-23

原文原文鏈接

RL之PG：基於TF利用策略梯度算法玩Cartpole遊戲實現智能得高分輸出結果視頻觀看地址：強化學習—基於TF利用策略梯度算法玩Cartpole遊戲實現智能得高分設計思路測試過程 Episode: 1 ~ 5 Average reward: 15.000000. Episode: 6 ~ 10 Average reward: 18.000000. Episode: 11 ~ 15

>>阅读原文<<