Q-Learning基本思想

文章目錄 Q-learning Value-Fuction 計算 V π ( s ) V^\pi(s) Vπ(s)的2種方式: 1、Monte-Carlo (MC) based approach : 2、Temporal-difference (TD) approach MC v.s. TD : Q-function: Q-Learning使用技巧: 技巧1:使用Target network 技巧
相關文章
相關標籤/搜索