強化學習RL- Lecture Note for CS188(暨CS181 ShanghaiTech)

說明:筆記旨在整理我校CS181課程的基本概念(PPT借用了Berkeley CS188)。因爲授課及考試語言爲英文,故英文出沒可能。算法 1 Reinforcement Learning 1.1 Online setting Def Online MDP: partially observed markov decision process, with unknown transition an
相關文章
相關標籤/搜索