RL稀疏獎勵問題

強化學習中狀態空間大,在只有達到特定的狀態才能給出獎勵的設定下,agent很難探索到特定狀態,怎麼辦? 稀疏獎勵問題是指agent探索的過程中難以獲得正獎勵,導致學習緩慢甚至無法進行學習的問題,並且廣泛存在於現實中,比如圍棋,人們很難去設定中間每步的獎勵,並且狀態空間巨大,使用全局獎勵會有獎勵稀疏且滯後的問題。 對於稀疏獎勵問題的資料首先推薦李宏毅老師關於稀疏獎勵部分的講解和國內這篇稀疏獎勵綜述。
相關文章
相關標籤/搜索