【深度強化學習 二】Q-Learning小技巧(2)(李宏毅老師學習視頻筆記)

首先放視頻地址李宏毅老師深度強化學習視頻。 上一篇初識Q-Learning講了一些基礎知識,本篇記錄改進內容。html Double DQN 在DQN中,Q值老是會被高估,由於 Q ( s t , a t ) Q\left(s_{t}, a_{t}\right) Q(st​,at​)的target是 r t + max ⁡ a Q ( s t + 1 , a ) r_{t}+\max _{a} Q
相關文章
相關標籤/搜索