深度強化學習落地寶典(5)——狀態空間篇

目錄 前言 狀態設計的四個步驟 任務分析 相關信息篩選 直接相關信息 間接相關信息 相關信息預處理 統一性考慮 形式統一 邏輯統一 效果驗證 模仿學習驗證 直接驗證 缺省驗證 總結 前言 DRL的狀態信息代表了agent所感知到的環境信息,以及因自身的action帶來的變化。狀態信息是agent制定決策和評估其長期收益的依據,而狀態設計的好壞直接決定了DRL算法能否收斂、收斂速度以及最終性能,茲事
相關文章
相關標籤/搜索