強化學習之深度Q函數

時間 2020-12-29

原文原文鏈接

背景：強化學習玩遊戲模擬器（model 或 emulator）以動作（action）爲輸入，輸出一張圖像和獎勵。單張圖像無法完全理解agent的當前狀態，所以得結合動作與狀態序列的信息。 agent的目標是，以一定的方式選擇動作，與模擬器進行相交，來最大化將來的獎勵。 Bellman equation: Q∗(s,a)=Es′∈ϵ[r+γmaxQ∗(s′,a′)|s,a] 強化學習的一般方法是

>>阅读原文<<