強化學習導論(3)有限馬爾可夫決策過程

本章我們介紹有限馬爾可夫決策過程(Finite MDPs),這個問題和賭博機一樣涉及到評估的反饋,但這裏還多了一個方面--在不同的情況作出不同的選擇。MDPs是經典的序列判定決策模型,就是說,你不是作出一個選擇就會馬上獲得reward,和賭博機不一樣,賭博機你只要搖一次臂即可立刻獲得reward,而MDPs就像下象棋,你只有結束了對局你纔會獲得reward,但下象棋從開始到結束涉及到很多個行動,也
相關文章
相關標籤/搜索