強化學習(RLAI)讀書筆記第三章有限馬爾科夫決策過程(finite MDP)

第三章 有限馬爾科夫決策過程 有限馬爾科夫決策過程(MDP)是關於評估型反饋的,就像多臂老虎機問題裏同樣,可是有是關聯型的問題。MDP是一個經典的關於連續序列決策的模型,其中動做不只影響當前的反饋,也會影響接下來的狀態以及之後的反饋。所以MDP須要考慮延遲反饋和當前反饋與延遲反饋之間的交換。算法 MDP是強化學習問題的一個數學理想化模型,以此來精確地從理論上描述。這章將會介紹強化學習裏的一些關鍵問
相關文章
相關標籤/搜索