《強化學習》基本概念和交叉熵方法

時間 2021-01-15

原文原文鏈接

基本概念監督學習與強化學習監督學習強化學習通過學習近似參考答案通過試驗和錯誤來學習最優策略需要正確答案代理的動作需要反饋模型不影響輸入數據代理可以影響自己的觀察 MDP形式定義 RL的目標最大化累積獎賞的期望 CEM交叉熵方法算法步驟初始化策略重複抽樣N個sessions 選取elite sessions:選擇前M個最好的session(獎勵最大的) 更新策略使得eli

>>阅读原文<<