李宏毅強化學習筆記【5.Imitation Learning】

如果沒有reward,怎麼辦 和環境互動,但不能得到reward,只能看着expert的demonstration學習。 判斷開車撞人扣多少分很難,收集人開車的例子,人對話的例子是比較簡單的。 不知道怎麼定reward,但可以收集範例。   1.Behavior Cloning expert做什麼,機器就做什麼一樣的事情。 收集expert的state和action,然後學習一個network,輸
相關文章
相關標籤/搜索