策略梯度之---actor critic

Actor crtic算法的思路,流程如下圖所示                                                  actor critic算法僞代碼如下圖所示 其中,critic使用基於值函數近似的方法,近似函數爲線性函數,參數爲w  ,爲TD error                                                      
相關文章
相關標籤/搜索