強化學習導論(3)有限馬爾可夫決策過程

時間 2021-01-13

原文原文鏈接

本章我們介紹有限馬爾可夫決策過程(Finite MDPs）,這個問題和賭博機一樣涉及到評估的反饋，但這裏還多了一個方面--在不同的情況作出不同的選擇。MDPs是經典的序列判定決策模型，就是說，你不是作出一個選擇就會馬上獲得reward，和賭博機不一樣，賭博機你只要搖一次臂即可立刻獲得reward，而MDPs就像下象棋，你只有結束了對局你纔會獲得reward，但下象棋從開始到結束涉及到很多個行動，也

>>阅读原文<<