【李弘毅深度強化學習】8.Imitation Learning

時間 2021-01-02

原文原文鏈接

本節課我們主要研究的是「Imitation Learning」（模仿學習） Imitation Learning也被叫做「示範」或者「學徒學習」使用這種方法的情況通常是這樣的：1，agent可以和環境進行交互，但是通常是無法獲得具體明確的reward。2，在一些實驗中是無法明確定義reward的。3，有的時候我們定義的reward是不準確的，容易造成很大困擾的雖然reward是很難定義的，但是

>>阅读原文<<