強化學習的分類

時間 2019-12-07

標籤強化學習分類简体版

原文原文鏈接

on-policy: 必須本人在場, 而且必定是本人邊玩邊學習，例如Sarsa，Sarsa(lambda)，TRPO。 off-policy: 能夠選擇本身玩, 也能夠選擇看着別人玩, 經過看別人玩來學習別人的行爲準則，例如Q-learning，DQN，Deterministic policy gradient。 on-policy和off-policy本質區別在於：更新Q值的時候是使用既定策略仍

>>阅读原文<<