強化學習——Qlearning——value based

時間 2021-01-03

原文原文鏈接

目錄 Critic評判一個actor面對不同s時的得分藉助reward函數的計算結果，但更專注於行爲本身的意義評判一個行爲的在一個狀態下的得分的MC和TD方案 TD方案綜合了歷史信息，更加符合行爲本身 Critic作爲Q函數，與actor關聯，輸入狀態，輸出各種行爲的得分從已有的樣本集中用TD or MC蒐集信息，統計當前agent的每個s中每個action的價值，更新agent：用s中最有

>>阅读原文<<