【強化學習】策略梯度policy gradient原理

eta爲學習率。 R_theta的梯度爲什麼是R(t^n)grad(p(a_t|s_t,theta)? 首先,我們來解釋下grad(p(a_t|s_t,theta)是怎麼來的。先看下面的一個分類問題。 從上可知,分類的損失函數採用交叉熵,最小化交叉熵相當於最大化log(y_i) 再來看爲什麼要乘上一個R(t^n)。從下面可知,乘上一個R(t^n),說明回報越大的狀態動作對將被訓練的次數越多,即對策
相關文章
相關標籤/搜索