【莫煩強化學習】筆記之Q-Learning（一）

時間 2021-01-02

標籤強化學習简体版

原文原文鏈接

Q-learning簡介行動準則：好的行爲能夠獲得獎勵，不好的行爲會獲得懲罰。假設你有兩個選擇：寫作業和看電視。你選擇連續看電視，被爸媽發現打屁股。你吸取了慘痛的教訓，第二次持續認真的寫作業。 Q表 Q-learning有一個Q表，如圖所示：表中是每一個狀態（s1，s2，……）以及所對應的所有動作（a1,a2,……）的「Q值」，Q值可以表示當前狀態下選擇對應動作的回報。 Q表的作用是什麼呢？

>>阅读原文<<