【莫煩強化學習】筆記之Q-Learning(一)

Q-learning簡介 行動準則:好的行爲能夠獲得獎勵,不好的行爲會獲得懲罰。 假設你有兩個選擇:寫作業和看電視。你選擇連續看電視,被爸媽發現打屁股。你吸取了慘痛的教訓,第二次持續認真的寫作業。 Q表 Q-learning有一個Q表,如圖所示: 表中是每一個狀態(s1,s2,……)以及所對應的所有動作(a1,a2,……)的「Q值」,Q值可以表示當前狀態下選擇對應動作的回報。 Q表的作用是什麼呢?
相關文章
相關標籤/搜索