Value-Based

文章目錄 蒙特卡洛(監督學習方法) TD(單步更新)(更常用)有時候遊戲太長了,玩不到結尾 Q value 蒙特卡洛(監督學習方法) 讓 V π V^π Vπ無限接近 G a G_a Ga​(也就是 ∑ t = 1 n r t \sum_{t=1}^{n}r^t ∑t=1n​rt) TD(單步更新)(更常用)有時候遊戲太長了,玩不到結尾 l o s s loss loss = V π ( S t
本站公眾號
   歡迎關注本站公眾號,獲取更多信息