[強化學習] off-policy和on-policy、Q-learning和Sarsa的區別、Sarsa-lambda、Q-lambda

時間 2020-01-13

標籤強化學習 policy learning sarsa 區別 lambda 简体版

原文原文鏈接

看了莫凡大神(link)關於Q-learning和Sarsa的視頻以後，大概瞭解了Q-learning和Sarsa，可是對其區別仍是有點懵懵懂懂，這篇博客即是後續對其理解的過程記錄。html Q-learning和Sarsa都是時序差分模型，這部分後面將再次介紹。提到Q-learning和Sarsa的區別，避免不了提到「off-policy」和「online-policy」策略，下面我將首先介紹「

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。