強化學習（1）：馬爾科夫決策過程

時間 2020-12-29

原文原文鏈接

強化學習（1）：馬爾科夫決策過程強化學習的基本原理：智能體在完成某項任務時，首先通過動作A與周圍環境進行交互，在動作A和環境的作用下，智能體會產生新的狀態，同時環境會給出一個立即回報。如此循環下去，智能體與環境不斷交互從而產生很多數據。強化學習算法利用產生的數據修改自身的動作策略，再與環境進行交互，產生新的數據。並利用新的數據進一步改善自身的行爲，經過數次迭代學習後，智能體最終學到完成相應任務的