強化學習之Q-learning

時間 2021-01-01

原文原文鏈接

Q-learning淺析當前的機器學習主流方向包含監督學習、無監督學習、強化學習，這裏以一個簡單的例子講解強化學習的入門算法Q-learning。假設有這樣的連通圖，圖中的0、1、2、3、4、5是狀態，有向箭頭表示可以從一個狀態到另一個狀態。在此，玩一個遊戲，假設玩家agent在任何一個狀態，讓他自己走動，走到狀態5，就贏了。在玩遊戲的過程中，對於玩家每次的行動系統回給出反饋，這樣玩家才能學

>>阅读原文<<