策略梯度訓練cartpole小遊戲

時間 2020-12-30

原文原文鏈接

我原來已經安裝了anaconda，在此基礎上進入cmd進行pip install tensorflow和pip install gym就可以了. 在win10的pycharm做的。 policy_gradient.py 1 # -*- coding: UTF-8 -*- 2 3 """ 4 Policy Gradient 算法（REINFORCE）。做決策的部分，相當於機器人的大腦 5

>>阅读原文<<