論文筆記 Joint Inference of Reward Machines and Policies for Reiforcement Learning

時間 2021-01-02

標籤論文筆記強化學習简体版

原文原文鏈接

摘要吸取高階知識（high-level knowledge）是加快強化學習的一個有效途徑。論文研究了一種強化學習問題，其中高階知識是以reward machines的形式存在的。reward machine是Mealy狀態機（Mealy machine）的一類，使用了非馬爾科夫（non-Markovian，獎勵不僅依賴於當前狀態，也依賴於歷史狀態）的獎勵函數（reward function）。論

>>阅读原文<<