Soft Actor-Critic 論文翻譯

目錄 論文鏈接 摘要 Introduction 相關工作 背景 符號表示 最大熵強化學習 從soft策略迭代到soft actor-critic soft 策略迭代方法的推導 SAC算法 實驗 比較評估 簡化實驗 隨機策略和確定性策略 策略評估 反饋的範圍 reward scale 目標網絡更新 總結 最後 論文鏈接 「Soft Actor-Critic: Off-Policy Maximum E
相關文章
相關標籤/搜索