策略迭代與值迭代的區別

時間 2021-01-05

原文原文鏈接

策略迭代與值迭代都屬於強化學習裏面策略求解中的動態規劃方法。其區別是什麼呢。首先看一張圖片：首先看策略迭代：１.initialization 初始化所有狀態的v(s)以及π(s)（初始化爲隨機策略） 2.poicy evaluation 用當前的v(s)對當前策略進行評估，計算出每一個狀態的v(s)，直到v(s)收斂，纔算訓練好了這個狀態價值函數V(s) 3.policy i

>>阅读原文<<