Non-delusional Q-learning and Value Iteration筆記

Non-delusional Q-learning and Value Iteration 1. 論文講了什麼/主要貢獻是什麼 文章發現了Q-learning和帶有函數逼近或其它策略約束的近似動態規劃中存在錯覺偏差的問題,並且對錯覺偏差進行了定義。發現了一個可以提升算法性能的方式。並且文中開發了一種新的策略類一致性備份操作符,以及相應的基於模型的PCVI和無模型的PCQL算法,這些算法完全消除了錯
相關文章
相關標籤/搜索