李宏毅教授A3C課程筆記總結

A3C (Asynchronous Advantage Actor-Critic) 遠優於DQN   Alpha go用到了model-based的方法   On-policy:學習的agent和與環境互動的agent是同一個 Off-policy:學習的agent和與環境互動的agent是不同的 注意學習的agent和交互的agent之間的差別不能太大   Actor:是一個神經網絡,輸入是觀察
相關文章
相關標籤/搜索