深刻淺出強化學習(4)-IRL

what: 逆向強化學習的提出者Ng是這麼想的:專家在完成某項任務時,其決策每每是最優的或接近最優的,那麼能夠這樣假設,當全部的策略所產生的累積回報指望都不比專家策略所產生的累積回報指望大時,強化學習所對應的回報函數就是根據示例學到的回報函數。 定義爲從專家示例中學到回報函數。 分類: 基於最大邊際的逆向強化學習 基於最大熵的方法 具體講解: 1) 在行爲克隆中,人的示例軌跡被記錄下來,下次執行時
相關文章
相關標籤/搜索