深度強化學習之模仿學習(Imitation Learning)

  上一部分研究的是獎勵稀疏的情況,本節的問題在於如果連獎勵都沒有應該怎麼辦,沒有獎勵的原因是,一方面在某些任務中很難定量的評價動作的好壞,如自動駕駛,撞死人和撞死動物的獎勵肯定不同,但分別爲多少卻並不清楚,另一方面,手動設置的獎勵可能導致不可控的行爲。要解決此類問題,可以將人類專家的範例作爲強化學習代理的參考去學習,因此模仿學習又叫演示學習(Learning by demonstration)或
相關文章
相關標籤/搜索