策略迭代與值迭代的區別

策略迭代與值迭代都屬於強化學習裏面策略求解中的動態規劃方法。其區別是什麼呢。 首先看一張圖片:  首先看策略迭代:    1.initialization  初始化所有狀態的v(s)以及π(s)(初始化爲隨機策略)  2.poicy evaluation  用當前的v(s)對當前策略進行評估,計算出每一個狀態的v(s),直到v(s)收斂,纔算訓練好了這個狀態價值函數V(s)  3.policy i
相關文章
相關標籤/搜索