【RL從入門到放棄】【四】

1、Deep Q Network deep q network是基礎是q_learning,裏面的改善包含三個方面 1、深度神經網絡逼近值函數 DQN利用深度卷積神經網絡逼近值函數,DQN的行爲值函數利用神經網絡逼近,屬於非線性逼近。雖然逼近方法不同,但都屬於參數逼近。請記住,此處的值函數對應着⼀組參數,在神經網絡,參數是每層網絡的權重,我們表示。公式表示的話值函數爲 。請留意,此時更新值函數時其
相關文章
相關標籤/搜索