七月算法強化學習第五課學習筆記

時間 2020-12-23

標籤強化學習七月在線算法圖像優化简体版

原文原文鏈接

Policy Gradient策略梯度增強學習的一些分類： Value Based：值函數 Q值函數 Policy Based：不需要值函數直接優化Policy Actor Critic：學習值函數學習Policy Deterministic policy的問題 Policy Network Gradient Ascent Policy Objective One step MDP Mult

>>阅读原文<<