強化學習七 - Policy Gradient Methods

強化學習七 - Policy Gradient Methods 一.前言   之前我們討論的所有問題都是先學習action value,再根據action value 來選擇action(無論是根據greedy policy選擇使得action value 最大的action,還是根據ε-greedy policy以1-ε的概率選擇使得action value 最大的action,action 的
相關文章
相關標籤/搜索