強化學習之深度Q函數

背景:強化學習玩遊戲 模擬器(model 或 emulator)以動作(action)爲輸入,輸出一張圖像和獎勵。 單張圖像無法完全理解agent的當前狀態,所以得結合動作與狀態序列的信息。 agent的目標是,以一定的方式選擇動作,與模擬器進行相交,來最大化將來的獎勵。 Bellman equation: Q∗(s,a)=Es′∈ϵ[r+γmaxQ∗(s′,a′)|s,a] 強化學習的一般方法是
相關文章
相關標籤/搜索