深度強化學習落地寶典（5）——狀態空間篇

時間 2021-01-12

標籤人工智能深度強化學習 AI落地简体版

原文原文鏈接

目錄前言狀態設計的四個步驟任務分析相關信息篩選直接相關信息間接相關信息相關信息預處理統一性考慮形式統一邏輯統一效果驗證模仿學習驗證直接驗證缺省驗證總結前言 DRL的狀態信息代表了agent所感知到的環境信息，以及因自身的action帶來的變化。狀態信息是agent制定決策和評估其長期收益的依據，而狀態設計的好壞直接決定了DRL算法能否收斂、收斂速度以及最終性能，茲事

>>阅读原文<<