深入淺出強化學習原理入門（一）——馬爾科夫決策過程

時間 2021-01-01

原文原文鏈接

馬爾科夫決策過程文章目錄馬爾科夫決策過程理論講解馬爾科夫性馬爾科夫過程馬爾科夫決策過程狀態值函數狀態-行爲值函數 question 1 強化學習基本框架智能體與環境不斷交互從而產生很多的數據，強化學習算法利用產生的數據修改自身的動作策略。強化學習與深度學習的區別：深度學習如圖像識別和語音識別，解決的是感知的問題。強化學習解決的是決策的問題。馬爾科夫決策過程（MDP）是一個

>>阅读原文<<