深刻淺出強化學習（4）-IRL

時間 2019-12-12

標籤深刻強化學習 irl 简体版

原文原文鏈接

what：逆向強化學習的提出者Ng是這麼想的：專家在完成某項任務時，其決策每每是最優的或接近最優的，那麼能夠這樣假設，當全部的策略所產生的累積回報指望都不比專家策略所產生的累積回報指望大時，強化學習所對應的回報函數就是根據示例學到的回報函數。定義爲從專家示例中學到回報函數。分類：基於最大邊際的逆向強化學習基於最大熵的方法具體講解： 1）在行爲克隆中，人的示例軌跡被記錄下來，下次執行時

>>阅读原文<<