強化學習 之 動態規劃

(1)價值迭代的同步更新和異步更新在收斂速度和效果上有什麼區別? 異步更新的收斂一般收斂得快一些。但是如果沒有達到收斂,異步更新得到的部分狀態的價值可能和ground truth差距較大,不敢直接用來構建policy。原因是異步更新可能使得部分狀態更新得不如別的狀態快。 (2)在價值迭代中,因爲gamma這個01之間衰減率的存在,算法可以收斂。那麼在策略迭代中,有沒有方法證明其一定可以收斂? 有的
相關文章
相關標籤/搜索