Q-learning

一、介紹 Q-learning 算法本質上是在求解函數Q(s,a). 如下圖,根據狀態s和動作a, 得出在狀態s下采取動作a會獲得的未來的獎勵,即Q(s,a)。 然後根據Q(s,a)的值,決定下一步動作該如何選擇。 二、算法 Q-learning 算法中我們通過獲得Q(s,a)函數來尋找在某個狀態下的最好的動作,使得最終獲得的累計獎勵最大 其Q(s,a)的計算方法是利用貝爾曼方程 如下圖是常見的兩
相關文章
相關標籤/搜索