強化學習組隊學習task03—— 策略梯度及 PPO 算法

時間 2021-03-23

標籤強化學習简体版

原文原文鏈接

文章目錄一、策略梯度 1.策略梯度理論實現 R的梯度算法：對於該公式的理解：在計算完R的梯度後，我們就使用策略梯度對參數進行更新 2.策略梯度實現的小技巧（1）添加一個基準值（2）分配合適的權重 3.蒙特卡洛與時序差分二、PPO算法 1.on-policy和off-policy 2.importance sampling 3.on-policy轉變爲off-policy 4.PPO/T

>>阅读原文<<