強化學習(一) —— Q-learning

時間 2021-01-01

標籤強化學習 Q-learning 简体版

原文原文鏈接

Q-learning算法中有兩個重要術語：狀態(state)和行爲(action) 引入我們做事情都會有一個自己的行爲準則，比如小時候爸媽常說不寫完作業就不準看電視所以我們在寫作業的這種狀態下，好的行爲準則就是繼續寫作業，直到寫完它，我們就可以繼續得到獎勵而如果沒有寫完作業就去跑去看電視，被爸媽發現後，後果很嚴重 Q-learning和我們這種情況類似，也是一個決策過程假設我們現在處於

>>阅读原文<<