李宏毅強化學習筆記【5.Imitation Learning】

時間 2021-01-02

標籤強化學習简体版

原文原文鏈接

如果沒有reward，怎麼辦和環境互動，但不能得到reward，只能看着expert的demonstration學習。判斷開車撞人扣多少分很難，收集人開車的例子，人對話的例子是比較簡單的。不知道怎麼定reward，但可以收集範例。 1.Behavior Cloning expert做什麼，機器就做什麼一樣的事情。收集expert的state和action，然後學習一個network，輸

>>阅读原文<<