【論文筆記】NEURAL COMBINATORIAL OPTIMIZATION WITH REINFORCEMENT LEARNING

目錄 論文 一、概論 二、模型 參數 公式 網絡 Critic網絡 actor-critic算法 搜索策略 三、實驗及結果 幾種不同的實驗組合 實驗結論 四、遷移到揹包問題 定義 實驗結論 ![在這裏插入圖片描述](https://img-blog.csdnimg.cn/20200519165501917.png) 論文 強化學習+指針網絡+組合優化 一、概論 主要是用強化學習中的策略梯度方法,來
相關文章
相關標籤/搜索