強化學習論文(4): Deep Reinforcement Learning in Large Discrete Action Spaces

時間 2020-12-24

原文原文鏈接

大規模離散動作空間內的深度強化學習摘要處理這樣的任務需要：1. 在動作集合上的泛化能力； 2. 次線性查找複雜度。本文提出方法，利用先驗知識將動作嵌入連續空間使其可以泛化；採用近似最近鄰算法達到 log ⁡ ( n ) \log (n) log(n)查找複雜度。背景知識介紹強化學習方法可分爲兩類：value-based policy, action-based policy. value

>>阅读原文<<