強化學習筆記01,02——強化學習問題和Multi-arm Bandits

人之所以能適應環境的變化並不斷提高解決問題的能力,其原因是人能通過學習積累經驗,總結規律,以增長知識和才能,從而更好地改善自己的決策和行爲。強化學習的思想來源於人類對動物學習過程的長期觀察。在機器學習範疇,依據從系統中獲得的反饋不同,機器學習可以分爲監督學習,無監督學習和強化學習。 強化學習概念 強化學習要解決的問題: 一個能夠感知環境的自治智能體(Agent),如何通過學習選擇能夠達到目標的最優
相關文章
相關標籤/搜索