強化學習（RLAI）讀書筆記第三章有限馬爾科夫決策過程（finite MDP）

時間 2021-01-11

標籤強化學習简体版

原文原文鏈接

第三章有限馬爾科夫決策過程有限馬爾科夫決策過程（MDP）是關於評估型反饋的，就像多臂老虎機問題裏一樣，但是有是關聯型的問題。MDP是一個經典的關於連續序列決策的模型，其中動作不僅影響當前的反饋，也會影響接下來的狀態以及以後的反饋。因此MDP需要考慮延遲反饋和當前反饋與延遲反饋之間的交換。 MDP是強化學習問題的一個數學理想化模型，以此來精確地從理論上描述。這章將會介紹強化學習裏的一些關鍵問題，

>>阅读原文<<