MDP 馬爾科夫決策過程

時間 2021-01-11

標籤強化學習简体版

原文原文鏈接

算法解析：（結合《強化學習——原理與Python實現》P18-19理解） 1.動力系統中的各個參數在一開始就是確定值 2.策略π中每個狀態下的動作選擇概率隨機分配，因爲這個概率值是可變的，但在迭代後會收斂 3.狀態轉移圖中，每個狀態的初始狀態值指定爲0 4.根據策略π確定該狀態選擇的動作，再和狀態S的初始值一起代入到狀態值計算公式，更新S的狀態值。 5.狀態值更新收斂之後，就可以通過比較在狀態S下

>>阅读原文<<