深度增強學習——Q-learning和決策梯度

時間 2021-01-14

原文原文鏈接

深度增強學習——Q-learning和決策梯度一、什麼是強化學習強化學習是指，我們有一個智能體（agent），能夠在其環境（environment）中採取行動，也可以因爲其行動獲得獎勵，它的目標是學會如何行動以最大限度地獲得獎勵。強化學習多是一種動態規劃的思路，使用生活化語言描述，就叫做：實踐出真知。與之前學過的監督學習和無監督學習不同，強化學習本身並不依賴於數據或者數據的標籤，而是依賴於對輸

>>阅读原文<<