AI學習筆記——求解最優MDP

上一篇文章介紹了MDP的基本概念,但是我們更關心的是如何尋找到最佳的路徑解決MDP問題。MDP過程中,可以有無數種策略(policy),找到最佳的路徑實際上就是找到最佳的Policy 來最大化V函數(Value Function)或者Q函數(Action-Value Function)。 用數學表達式表達出來就是: 其中加星號* 的v和q表示最優的v和q。 還記得上一篇文章中的那個例子嗎?學生學習
相關文章
相關標籤/搜索