【深度強化學習】6. Q-Learning技巧及其改進方案

時間 2021-05-05

原文原文鏈接

【DataWhale打卡】第四次任務，主要是重新學習一下李宏毅的Q-learning部分的知識，推導很多。之前看的時候就是簡單過了一遍，很多細節沒有清楚。這篇筆記包括了李宏毅深度強化學習三個視頻長度的內容。文章目錄 1. 概念/解釋 2. Value Function 3. State-Action Value Function 4. TIP: Target Network 5. TIP: Ex

>>阅读原文<<