強化學習入門

1.基本概念 state:當前環境的狀態+agent自身的狀態,是一個隨機變量,受到環境的影響 policy:根據當前state給出相應action的概率 State transition:在給定state,action下,環境給出下一個state的概率 return:回報,表示從t時刻開始未來所有回報的折扣累積,是一個隨機變量,隨機性來自於未來所有state和action Action-valu
相關文章
相關標籤/搜索