機器學習筆記(十六)強化學習

時間 2020-12-31

原文原文鏈接

16.強化學習 16.1任務與獎賞強化學習（reinforcementlearning）的過程就是機器通過一系列的動作和環境交互，從而得到最佳的動作序列。圖示：強化學習任務用馬爾可夫決策（Markov Decision Process，MDP）描述：機器處於環境E中，狀態空間爲X，其中每個狀態x∈X是機器感知到的環境的描述；機器能採取的動作構成了動作空間A，若某個動作a∈A作用在當前狀態x

>>阅读原文<<