強化學習(RL)原理以及數學模型

強化學習簡介 1強化學習與機器學習的關係 2強化學習的一些小案例 強化學習的原理 強化學習的數學原理 1建模的思路 2 馬爾可夫過程 3 馬爾可夫決策過程MDP 1.強化學習簡介 1.1強化學習與機器學習的關係 強化學習是機器學習的一個分支,強調如何基於環境行動,以取得最大化的預期利益,其靈感來源於心理學中的行爲主義理論,即有機體如何在環境的獎勵或懲罰刺激下,逐步造成對刺激的預期,產生能最大化利益
相關文章
相關標籤/搜索