強化學習實例11：策略梯度法（Policy Gradient）

時間 2019-12-06

標籤強化學習實例策略梯度 policy gradient 简体版

原文原文鏈接

本實例基於策略梯度的算法來學習「打乒乓球」遊戲node 首先本實例的定義馬爾可夫決策過程：python 狀態s：每一時刻的遊戲畫面行動a：右邊綠色拍，向上或向下策略：狀態爲s下，採起行動a的機率強化學習的目標是最大化長期回報指望：git 其中爲策略參數算法定義目標函數J網絡策略梯度爲app 用Q代替rdom 使用蒙特卡羅法求解函數使用蒙特卡羅法，方差大。爲了模型的穩定，提出Actor-

>>阅读原文<<