深度強化學習之模仿學習（Imitation Learning）

時間 2021-01-02

標籤筆記简体版

原文原文鏈接

上一部分研究的是獎勵稀疏的情況，本節的問題在於如果連獎勵都沒有應該怎麼辦，沒有獎勵的原因是，一方面在某些任務中很難定量的評價動作的好壞，如自動駕駛，撞死人和撞死動物的獎勵肯定不同，但分別爲多少卻並不清楚，另一方面，手動設置的獎勵可能導致不可控的行爲。要解決此類問題，可以將人類專家的範例作爲強化學習代理的參考去學習，因此模仿學習又叫演示學習（Learning by demonstration）或

>>阅读原文<<