強化學習(1):馬爾科夫決策過程

強化學習(1):馬爾科夫決策過程 強化學習的基本原理:智能體在完成某項任務時,首先通過動作A與周圍環境進行交互,在動作A和環境的作用下,智能體會產生新的狀態,同時環境會給出一個立即回報。如此循環下去,智能體與環境不斷交互從而產生很多數據。強化學習算法利用產生的數據修改自身的動作策略,再與環境進行交互,產生新的數據。並利用新的數據進一步改善自身的行爲,經過數次迭代學習後,智能體最終學到完成相應任務的
相關文章
相關標籤/搜索