【強化學習】策略梯度policy gradient原理

時間 2021-01-02

原文原文鏈接

eta爲學習率。 R_theta的梯度爲什麼是R(t^n)grad(p(a_t|s_t,theta)？首先，我們來解釋下grad(p(a_t|s_t,theta)是怎麼來的。先看下面的一個分類問題。從上可知，分類的損失函數採用交叉熵，最小化交叉熵相當於最大化log(y_i) 再來看爲什麼要乘上一個R(t^n)。從下面可知，乘上一個R(t^n)，說明回報越大的狀態動作對將被訓練的次數越多，即對策

>>阅读原文<<