強化學習論文(4): Deep Reinforcement Learning in Large Discrete Action Spaces

大規模離散動作空間內的深度強化學習 摘要 處理這樣的任務需要:1. 在動作集合上的泛化能力; 2. 次線性查找複雜度。 本文提出方法,利用先驗知識將動作嵌入連續空間使其可以泛化;採用近似最近鄰算法達到 log ⁡ ( n ) \log (n) log(n)查找複雜度。 背景知識介紹 強化學習方法可分爲兩類:value-based policy, action-based policy. value
相關文章
相關標籤/搜索