李宏毅教授A3C課程筆記總結

時間 2021-01-21

原文原文鏈接

A3C (Asynchronous Advantage Actor-Critic) 遠優於DQN Alpha go用到了model-based的方法 On-policy：學習的agent和與環境互動的agent是同一個 Off-policy：學習的agent和與環境互動的agent是不同的注意學習的agent和交互的agent之間的差別不能太大 Actor：是一個神經網絡，輸入是觀察

>>阅读原文<<