馬爾科夫獎賞過程

0 前言 本文寫作目的:儘量通俗講解強化學習知識,使讀者不會被各種概念嚇倒!本文是第一篇,但是最關鍵的一篇是第二篇馬爾科夫決策過程(Markov Decision Process,MDP),只有充分理解了馬爾科夫決策過程,才能遊刃有餘的學習後續知識,所以希望讀者能夠將MDP深入理解後再去學習後續內容。 由於本人水平有限,文章寫作順序幾乎是完全按照David Silver強化學習課程講解,但是會補充
相關文章
相關標籤/搜索