使用DDPG算法實現cartpole 100萬次不倒

DDPG的全稱是Deep Deterministic Policy Gradient,一種Actor Critic機器增強學習方法。 CartPole是http://gym.openai.com/envs/CartPole-v0/ 這個網站提供的一個杆子不倒的測試環境。 CartPole環境返回一個狀態包括位置、加速度、杆子垂直夾角和角加速度。玩家控制左右兩個方向使杆子不倒。杆子倒了或超出水平位置
相關文章
相關標籤/搜索