【5分鐘 Paper】Deterministic Policy Gradient Algorithms

時間 2021-01-02

原文原文鏈接

論文題目：Deterministic Policy Gradient Algorithms 所解決的問題？ stochastic policy的方法由於含有部分隨機，所以效率不高，方差大，採用deterministic policy方法比stochastic policy的採樣效率高，但是沒有辦法探索環境，因此只能採用off-policy的方法來進行了。背景以往的action是一個動作

>>阅读原文<<