強化學習-------馬爾科夫決策過程

重點:就是要得出策略,因此需要知道V*,因此需要知道V。然後有兩種迭代方式求解,一是值迭代,而是策略迭代。 對於Q函數,V函數的理解,可以通過那兩個樹狀圖理解比較容易;另外選擇動作a後,到達s‘是有一定的概率的,不是選了a,s’就確定了,而是以一定的概率。   爲什麼要講馬爾科夫決策過程?因爲幾乎所有的強化學習問題都可以表述成馬爾科夫決策過程(MDP)的形式,比如說:最優控制主要是處理連續MDP問
相關文章
相關標籤/搜索