強化學習(2)-算法總論

DRL的基本模型: DRL算法大框架: 大腦的執行機構-actor: 輸入狀態s,輸出動作a(policy gradient算法) 大腦的評判機構-critrc:根據回饋r(外界給的)進行調整。(Q learning) 人類也是在本能和價值觀影響作用下進行行爲,並且價值受經驗的影響不斷改變。 在actor-critic的框架下:有DQN、A3C、UNREAL等算法提出。 DQN- 第一個提出的DR
相關文章
相關標籤/搜索