強化學習 優勢函數(Advantage Function)

目錄 什麼是優勢函數 歸一化、激活函數等學習問題  爲什麼要使用優勢函數 常見的優勢函數 什麼是優勢函數 優勢函數表達在狀態s下,某動作a相對於平均而言的優勢。 從數量關係來看,就是隨機變量相對均值的偏差。 使用優勢函數是深度強化學習極其重要的一種策略,尤其對於基於policy的學習。 定義如下: 歸一化、激活函數等學習問題  以下是常見的激活函數,梯度學習時,可以發現: 1,Sigmoid一類的
相關文章
相關標籤/搜索