強化學習七 - Policy Gradient Methods

時間 2020-12-24

原文原文鏈接

強化學習七 - Policy Gradient Methods 一.前言　　之前我們討論的所有問題都是先學習action value,再根據action value 來選擇action(無論是根據greedy policy選擇使得action value 最大的action,還是根據ε-greedy policy以1-ε的概率選擇使得action value 最大的action,action 的

>>阅读原文<<