強化學習——Qlearning——value based

目錄 Critic評判一個actor面對不同s時的得分 藉助reward函數的計算結果,但更專注於行爲本身的意義 評判一個行爲的在一個狀態下的得分的MC和TD方案 TD方案綜合了歷史信息,更加符合行爲本身 Critic作爲Q函數,與actor關聯,輸入狀態,輸出各種行爲的得分 從已有的樣本集中用TD or MC蒐集信息,統計當前agent的每個s中每個action的價值,更新agent:用s中最有
相關文章
相關標籤/搜索