強化學習的分類

on-policy: 必須本人在場, 而且必定是本人邊玩邊學習,例如Sarsa,Sarsa(lambda),TRPO。 off-policy: 能夠選擇本身玩, 也能夠選擇看着別人玩, 經過看別人玩來學習別人的行爲準則,例如Q-learning,DQN,Deterministic policy gradient。 on-policy和off-policy本質區別在於:更新Q值的時候是使用既定策略仍
相關文章
相關標籤/搜索