強化學習之動態規劃

時間 2021-07-14

標籤機器學習強化學習算法人工智能简体版

原文原文鏈接

（1）價值迭代的同步更新和異步更新在收斂速度和效果上有什麼區別？異步更新的收斂一般收斂得快一些。但是如果沒有達到收斂，異步更新得到的部分狀態的價值可能和ground truth差距較大，不敢直接用來構建policy。原因是異步更新可能使得部分狀態更新得不如別的狀態快。（2）在價值迭代中，因爲gamma這個01之間衰減率的存在，算法可以收斂。那麼在策略迭代中，有沒有方法證明其一定可以收斂？有的

>>阅读原文<<