論文筆記 Joint Inference of Reward Machines and Policies for Reiforcement Learning

摘要 吸取高階知識(high-level knowledge)是加快強化學習的一個有效途徑。論文研究了一種強化學習問題,其中高階知識是以reward machines的形式存在的。reward machine是Mealy狀態機(Mealy machine)的一類,使用了非馬爾科夫(non-Markovian,獎勵不僅依賴於當前狀態,也依賴於歷史狀態)的獎勵函數(reward function)。論
相關文章
相關標籤/搜索