強化學習筆記（6）Policy Gradient 策略梯度下降

時間 2021-01-02

標籤強化學習RL 強化學習简体版

原文原文鏈接

文章目錄概念 Value-Based and Policy-Based RL Value-Based Policy -Based Actor-Critic 目標函數的確定梯度下降解決問題 Likelihood ratios 自然對數 Softmax Policy Gaussian Policy 連續動作空間一步MDP過程爲例：利用score function推導梯度。 One Step MD

>>阅读原文<<