強化學習（RLAI）讀書筆記第三章有限馬爾科夫決策過程（finite MDP）

時間 2019-12-13

標籤強化學習 rlai 讀書筆記第三有限決策過程 finite mdp 简体版

原文原文鏈接

第三章有限馬爾科夫決策過程有限馬爾科夫決策過程（MDP）是關於評估型反饋的，就像多臂老虎機問題裏同樣，可是有是關聯型的問題。MDP是一個經典的關於連續序列決策的模型，其中動做不只影響當前的反饋，也會影響接下來的狀態以及之後的反饋。所以MDP須要考慮延遲反饋和當前反饋與延遲反饋之間的交換。算法 MDP是強化學習問題的一個數學理想化模型，以此來精確地從理論上描述。這章將會介紹強化學習裏的一些關鍵問

>>阅读原文<<