強化學習-------馬爾科夫決策過程

時間 2020-12-29

原文原文鏈接

重點：就是要得出策略，因此需要知道V*，因此需要知道V。然後有兩種迭代方式求解，一是值迭代，而是策略迭代。對於Q函數，V函數的理解，可以通過那兩個樹狀圖理解比較容易；另外選擇動作a後，到達s‘是有一定的概率的，不是選了a，s’就確定了，而是以一定的概率。爲什麼要講馬爾科夫決策過程？因爲幾乎所有的強化學習問題都可以表述成馬爾科夫決策過程（MDP）的形式，比如說：最優控制主要是處理連續MDP問