強化學習之策略迭代 10

假設智能體已經知道該環境的所有信息,因此智能體知道該環境如何決定下個狀態,並知道該環境如何得到獎勵。 在這個圖中,智能體已經知道了關於該環境的所有信息如圖所示,目標是從左上角到達右下角。圖中右邊的等式表示爲每個狀態下采取不同動作的概率都爲1/2, 通過貝爾曼方程得到了下面四個等式,因爲S4是終點所以值爲0. 聯立方程組求得每個狀態價值函數的值爲0,2,2,0. 但是通常狀態空間要大很多,解方程組的
相關文章
相關標籤/搜索