Planning and Learning

這算是一篇綜述性文章,講的不深,但是瞭解做planning都有哪些方法。這篇文章裏全部使用了Q的說法,因爲實現上可能是網絡DQN,也可以是經典的Table。 Models and Planning Models指的是Environment Models,可以分爲兩大類: 當前狀態和採取的動作作爲輸入,輸出下一個所有可能狀態和獎勵的分佈 當前狀態和採取的動作作爲輸入,輸出下一個狀態和獎勵 Plann
相關文章
相關標籤/搜索