【RL從入門到放棄】【四】

時間 2021-01-06

原文原文鏈接

1、Deep Q Network deep q network是基礎是q_learning,裏面的改善包含三個方面 1、深度神經網絡逼近值函數 DQN利用深度卷積神經網絡逼近值函數，DQN的行爲值函數利用神經網絡逼近，屬於非線性逼近。雖然逼近方法不同，但都屬於參數逼近。請記住，此處的值函數對應着⼀組參數，在神經網絡，參數是每層網絡的權重，我們表示。公式表示的話值函數爲。請留意，此時更新值函數時其