深度增強學習——Q-learning和決策梯度

深度增強學習——Q-learning和決策梯度 一、什麼是強化學習 強化學習是指,我們有一個智能體(agent),能夠在其環境(environment)中採取行動,也可以因爲其行動獲得獎勵,它的目標是學會如何行動以最大限度地獲得獎勵。強化學習多是一種動態規劃的思路,使用生活化語言描述,就叫做:實踐出真知。與之前學過的監督學習和無監督學習不同,強化學習本身並不依賴於數據或者數據的標籤,而是依賴於對輸
相關文章
相關標籤/搜索