《強化學習》 基本概念和交叉熵方法

基本概念 監督學習與強化學習 監督學習 強化學習 通過學習近似參考答案 通過試驗和錯誤來學習最優策略 需要正確答案 代理的動作需要反饋 模型不影響輸入數據 代理可以影響自己的觀察 MDP形式定義 RL的目標 最大化累積獎賞的期望 CEM交叉熵方法 算法步驟 初始化策略 重複 抽樣N個sessions 選取elite sessions:選擇前M個最好的session(獎勵最大的) 更新策略使得eli
相關文章
相關標籤/搜索