Q-Learning基本思想

時間 2021-01-16

原文原文鏈接

文章目錄 Q-learning Value-Fuction 計算 V π ( s ) V^\pi(s) Vπ(s)的2種方式： 1、Monte-Carlo (MC) based approach ： 2、Temporal-difference (TD) approach MC v.s. TD ： Q-function: Q-Learning使用技巧：技巧1：使用Target network 技巧

>>阅读原文<<