西瓜書強化學習QLearning算法與網上版本比較

西瓜書上的QLearning算法與網上的版本比較:       不同點:西瓜書上的Q(x,a)就是Q表,π(x,a)就是貪婪算法選擇動作的概率,這個值對應於ε。        西瓜書上的第六行的公式和另一版本的更新值公式的區別,網上版本是下一個狀態的maxQ(x',a'), 因爲是求最大值,所以不需要西瓜書上的第五行和第七行代碼,直接查找下一個狀態x'的最大值得Q(x',a'),而西瓜書上的不是。
相關文章
相關標籤/搜索