什麼是馬爾可夫決策過程

時間 2020-06-03

標籤什麼決策過程简体版

原文原文鏈接

做者|Nathan Lambert
編譯|VK
來源|Towards Data Science算法

馬爾可夫是安德烈·馬爾科夫(Andrey Markov)，他是著名的俄羅斯數學家，以其在隨機過程當中的工做而聞名。機器學習

「馬爾可夫」一般意味着在當前狀態下，將來和過去是獨立的。函數

創建Markovian系統的關鍵思想是無記憶。無記憶是系統歷史不會影響當前狀態的想法。用機率表示法，無記憶性轉化爲這種狀況。考慮一系列動做產生的軌跡，咱們正在尋找當前動做將帶給咱們的位置。長的條件機率可能看起來像：學習

如今若是系統是Markovian，則歷史將所有包含在當前狀態中。所以，咱們的第一步分配要簡單得多。spa

這一步是改變計算效率的規則。馬爾可夫性質是全部現代強化學習算法的存在和成功的基礎。.net

MDP由如下定義：代理

狀態集$s\in S。狀態是代理程序全部可能的位置。在下面的示例中，它是機器人位置。
一組動做$a\in A$。動做是代理能夠採起的全部可能動做的集合。在下面的示例中，這些動做的下方是{北，東，南，西}。
轉換函數T(s，a，s')。T(s，a，s')保持MDP的不肯定性。給定當前位置和給定動做，T決定下一個狀態出現的頻率。在下面的示例中，轉換函數多是下一個狀態在80%的時間內處於目前動做方向，而在其餘20%的狀況下偏離了90度。在下面的示例中，機器人選擇了北，但每一個機器人有10%的機會向東或向西移動。
獎勵函數R(s，a，s')。最大化報酬總額是任何代理的目標。此函數說明每一個步驟可得到多少獎勵。一般，爲鼓勵快速解決方案，每一個步驟都會有少許的負獎勵(成本)，而在最終狀態下會有較大的正面(成功的任務)或負面(失敗的任務)獎勵。例以下面的寶石和火坑。
開始狀態s0，也許是結束狀態。