強化學習及Python代碼示例

1 概述 強化學習是機器學習裏面的一個分支。它強調如何基於環境而行動,以取得最大化的預期收益。其靈感來源於心理學中的行爲主義理論,既有機體如何在環境給予的獎勵或者懲罰的刺激下,逐步造成對刺激的預期,產生可以最大利益的習慣性行爲。結構簡圖以下:python 由於強化學習考慮到了自主個體、環境、獎勵等因素,因此不少人包括強化學習的研究者Richard Sutton 都認爲它是人工智能中最高層的模型,其
相關文章
相關標籤/搜索