強化學習算法分類總結

知識總結:https://www.jianshu.com/p/a04a8c7bee98 A2C,A3C,PPO1,PPO2 :策略函數的優化(πθ(a|s)) Q-learing                              :  動作值函數的優化(Qθ(s,a)) DDPG,SAC                       :結合策略函數和動作值函數(πθ(a|s)+Qθ(s,a)
相關文章
相關標籤/搜索