deep Q learning小筆記

1.loss 是什麼算法

2.網絡

Q-Table的更新問題變成一個函數擬合問題,相近的狀態獲得相近的輸出動做。以下式,經過更新參數 θθ 使Q函數逼近最優Q值 函數

深度神經網絡能夠自動提取複雜特徵,所以,面對高維且連續的狀態使用深度神經網絡最合適不過了。學習

DRL是將深度學習(DL)與強化學習(RL)結合,直接從高維原始數據學習控制策略。而DQN是DRL的其中一種算法,它要作的就是將卷積神經網絡(CNN)和Q-Learning結合起來,CNN的輸入是原始圖像數據(做爲狀態State),輸出則是每一個動做Action對應的價值評估Value Function(Q值)。spa

相關文章
相關標籤/搜索