強化學習(RLAI)讀書筆記第三章有限馬爾科夫決策過程(finite MDP)

第三章 有限馬爾科夫決策過程 有限馬爾科夫決策過程(MDP)是關於評估型反饋的,就像多臂老虎機問題裏一樣,但是有是關聯型的問題。MDP是一個經典的關於連續序列決策的模型,其中動作不僅影響當前的反饋,也會影響接下來的狀態以及以後的反饋。因此MDP需要考慮延遲反饋和當前反饋與延遲反饋之間的交換。 MDP是強化學習問題的一個數學理想化模型,以此來精確地從理論上描述。這章將會介紹強化學習裏的一些關鍵問題,
相關文章
相關標籤/搜索