強化學習及Python代碼示例

時間 2020-05-23

原文原文鏈接

1 概述強化學習是機器學習裏面的一個分支。它強調如何基於環境而行動，以取得最大化的預期收益。其靈感來源於心理學中的行爲主義理論，既有機體如何在環境給予的獎勵或者懲罰的刺激下，逐步造成對刺激的預期，產生可以最大利益的習慣性行爲。結構簡圖以下：python 由於強化學習考慮到了自主個體、環境、獎勵等因素，因此不少人包括強化學習的研究者Richard Sutton 都認爲它是人工智能中最高層的模型，其

>>阅读原文<<