周志華機器學習 Day29

時間 2021-07-12

原文原文鏈接

強化學習任務與獎賞通過不斷的摸索、學習，能總結出好的學習策略，這個過程抽象出來，就是「強化學習」。強化學習任務通常用馬爾可夫決策過程（簡稱MDP）來描述：機器處於環境E中，狀態空間爲X，其中每個狀態x∈X是機器感知到的環境的描述；機器能採取的動作構成了空間A；若某個動作a∈A作用在當前狀態x上

>>阅读原文<<

相關文章

相關標籤/搜索

機器學習周志華

機器學習(周志華)

機器學習（周志華）

圖機器學習

java機器學習

Python機器學習

python 機器學習

瀏覽器信息

網站主機教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<