強化學習之Policy Gradient

參考:https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/5-1-policy-gradient-softmax1/ Policy gradient 是 RL 中另外一個大家族, 他不像 Value-based 方法 (Q learning, Sarsa), 但他也要接受環境信息 (obser
相關文章
相關標籤/搜索