貝爾曼方程(Bellman Equation)的解讀

這個算法只適用於沒有變化的環境 在解釋下面幾個專業術語前 我先來說一下這個Agent,中文的意思是 代理,代理人 但是實際上他大概表示的意思就相當於變量,就給你某一個狀態貼上了一個標籤一樣 ** 狀態(State) :**用一個數值來作爲代理(Agent),描述在環境中某一特定時間點的狀態 ** 行爲(Action)* *:代理(Agent)向環境提供的輸入,通過對當前狀態經行策略計算,然後採取行
相關文章
相關標籤/搜索