【深度強化學習】6. Q-Learning技巧及其改進方案

【DataWhale打卡】第四次任務,主要是重新學習一下李宏毅的Q-learning部分的知識,推導很多。之前看的時候就是簡單過了一遍,很多細節沒有清楚。這篇筆記包括了李宏毅深度強化學習三個視頻長度的內容。 文章目錄 1. 概念/解釋 2. Value Function 3. State-Action Value Function 4. TIP: Target Network 5. TIP: Ex
相關文章
相關標籤/搜索