AI學習筆記——求解最優MDP

時間 2021-01-11

原文原文鏈接

上一篇文章介紹了MDP的基本概念，但是我們更關心的是如何尋找到最佳的路徑解決MDP問題。MDP過程中，可以有無數種策略(policy)，找到最佳的路徑實際上就是找到最佳的Policy 來最大化V函數(Value Function)或者Q函數(Action-Value Function)。用數學表達式表達出來就是：其中加星號* 的v和q表示最優的v和q。還記得上一篇文章中的那個例子嗎？學生學習

>>阅读原文<<