強化學習(一) —— Q-learning

Q-learning算法中有兩個重要術語:狀態(state)和行爲(action)   引入 我們做事情都會有一個自己的行爲準則,比如小時候爸媽常說不寫完作業就不準看電視 所以我們在寫作業的這種狀態下,好的行爲準則就是繼續寫作業,直到寫完它,我們就可以繼續得到獎勵 而如果沒有寫完作業就去跑去看電視,被爸媽發現後,後果很嚴重 Q-learning和我們這種情況類似,也是一個決策過程 假設我們現在處於
相關文章
相關標籤/搜索