AI學習筆記——Sarsa算法

時間 2020-12-31

原文原文鏈接

上一篇文章介紹了強化學習中的Q-Learning算法，這篇文章介紹一個與Q-Learning十分類似的算法——Sarsa算法。 1. 回顧Q Learning 還是同樣的例子，紅色機器人在4x4的迷宮中尋找黃色的寶藏。找到寶藏，將會的到+1的獎勵，如果掉進黑色陷阱就回的到-1的獎勵(懲罰)。首先回顧一下Q表如下 Q table (States\Actions) left (A1) right (

>>阅读原文<<