GAIL生成對抗模仿學習詳解《Generative adversarial imitation learning》

前文是一些針對IRL,IL綜述性的解釋,後文是針對《Generative adversarial imitation learning》文章的理解及公式的推導。 通過深度強化學習,我們能夠讓機器人針對一個任務實現從0到1的學習,但是需要我們定義出reward函數,在很多複雜任務,例如無人駕駛中,很難根據狀態特徵來建立一個科學合理的reward。 人類學習新東西有一個重要的方法就是模仿學習,通過觀察
相關文章
相關標籤/搜索