AI學習筆記——Sarsa算法

上一篇文章介紹了強化學習中的Q-Learning算法,這篇文章介紹一個與Q-Learning十分類似的算法——Sarsa算法。 1. 回顧Q Learning 還是同樣的例子,紅色機器人在4x4的迷宮中尋找黃色的寶藏。找到寶藏,將會的到+1的獎勵,如果掉進黑色陷阱就回的到-1的獎勵(懲罰)。 首先回顧一下Q表如下 Q table (States\Actions) left (A1) right (
相關文章
相關標籤/搜索