強化學習組隊學習task03—— 策略梯度及 PPO 算法

文章目錄 一、策略梯度 1.策略梯度理論實現 R的梯度算法: 對於該公式的理解: 在計算完R的梯度後,我們就使用策略梯度對參數進行更新 2.策略梯度實現的小技巧 (1)添加一個基準值 (2)分配合適的權重 3.蒙特卡洛與時序差分 二、PPO算法 1.on-policy和off-policy 2.importance sampling 3.on-policy轉變爲off-policy 4.PPO/T
相關文章
相關標籤/搜索