西瓜書強化學習QLearning算法與網上版本比較

時間 2020-12-29

標籤強化學習 QLearning 機器學習简体版

原文原文鏈接

西瓜書上的QLearning算法與網上的版本比較：不同點：西瓜書上的Q(x,a)就是Q表，π（x,a）就是貪婪算法選擇動作的概率，這個值對應於ε。西瓜書上的第六行的公式和另一版本的更新值公式的區別，網上版本是下一個狀態的maxQ(x',a')，因爲是求最大值，所以不需要西瓜書上的第五行和第七行代碼，直接查找下一個狀態x'的最大值得Q(x',a')，而西瓜書上的不是。

>>阅读原文<<