對偶性解法,賦予強化學習更多可能性!

文 / 研究員 Ofir Nachum 和 Bo Dai,Google Research 強化學習 (RL) 是一種用於訓練智能體制定在複雜環境中成功的決策序列的常用方法。如機器人導航,智能體控制機器人尋找通往目標位置的路徑;或者遊戲玩法,希望能在最短時間內通關。Q-learning 和 actor-critic 等許多現代的成功 RL 算法都提出將 RL 問題簡化爲 約束滿足 (Constrai
相關文章
相關標籤/搜索