周志華 機器學習 Day29

                                                  強化學習 任務與獎賞 通過不斷的摸索、學習,能總結出好的學習策略,這個過程抽象出來,就是「強化學習」。 強化學習任務通常用馬爾可夫決策過程(簡稱MDP)來描述:機器處於環境E中,狀態空間爲X,其中每個狀態x∈X是機器感知到的環境的描述;機器能採取的動作構成了空間A;若某個動作a∈A作用在當前狀態x上
相關文章
相關標籤/搜索