強化學習中同步動態規劃和異步動態規劃 Synchronous and Asynchronous dynamic programminging

同步動態規劃是基礎:web 一次性更新全部的S的value。異步 異步動態規劃分集中常見類型: in-place 動態規劃: 不對上一週期的value進行備份,直接使用這一週期的value(固然,本週期的value原本就是上一週期優化的結果,只是少了備份這一步,節省了一些內存)svg Prioritised Sweeping:優化 計算優化目標值和現實值之差,對多個S計算後排成一列,差值大的在前,
相關文章
相關標籤/搜索