七月算法強化學習 第五課 學習筆記

Policy Gradient策略梯度 增強學習的一些分類: Value Based:值函數 Q值函數 Policy Based:不需要值函數 直接優化Policy Actor Critic:學習值函數 學習Policy Deterministic policy的問題 Policy Network Gradient Ascent Policy Objective One step MDP Mult
相關文章
相關標籤/搜索