MDP 馬爾科夫決策過程

算法解析:(結合《強化學習——原理與Python實現》P18-19理解) 1.動力系統中的各個參數在一開始就是確定值 2.策略π中每個狀態下的動作選擇概率隨機分配,因爲這個概率值是可變的,但在迭代後會收斂 3.狀態轉移圖中,每個狀態的初始狀態值指定爲0 4.根據策略π確定該狀態選擇的動作,再和狀態S的初始值一起代入到狀態值計算公式,更新S的狀態值。 5.狀態值更新收斂之後,就可以通過比較在狀態S下
相關文章
相關標籤/搜索