強化學習（RL）原理以及數學模型

時間 2019-12-04

原文原文鏈接

強化學習簡介 1強化學習與機器學習的關係 2強化學習的一些小案例強化學習的原理強化學習的數學原理 1建模的思路 2 馬爾可夫過程 3 馬爾可夫決策過程MDP 1.強化學習簡介 1.1強化學習與機器學習的關係強化學習是機器學習的一個分支，強調如何基於環境行動，以取得最大化的預期利益，其靈感來源於心理學中的行爲主義理論，即有機體如何在環境的獎勵或懲罰刺激下，逐步造成對刺激的預期，產生能最大化利益

>>阅读原文<<