【5分鐘 Paper】Deterministic Policy Gradient Algorithms

論文題目:Deterministic Policy Gradient Algorithms 所解決的問題?   stochastic policy的方法由於含有部分隨機,所以效率不高,方差大,採用deterministic policy方法比stochastic policy的採樣效率高,但是沒有辦法探索環境,因此只能採用off-policy的方法來進行了。 背景   以往的action是一個動作
相關文章
相關標籤/搜索