機器學習筆記(十六)強化學習

  16.強化學習 16.1任務與獎賞 強化學習(reinforcementlearning)的過程就是機器通過一系列的動作和環境交互,從而得到最佳的動作序列。圖示: 強化學習任務用馬爾可夫決策(Markov Decision Process,MDP)描述:機器處於環境E中,狀態空間爲X,其中每個狀態x∈X是機器感知到的環境的描述;機器能採取的動作構成了動作空間A,若某個動作a∈A作用在當前狀態x
相關文章
相關標籤/搜索