強化學習之策略迭代 10

時間 2021-01-12

原文原文鏈接

假設智能體已經知道該環境的所有信息，因此智能體知道該環境如何決定下個狀態，並知道該環境如何得到獎勵。在這個圖中，智能體已經知道了關於該環境的所有信息如圖所示，目標是從左上角到達右下角。圖中右邊的等式表示爲每個狀態下采取不同動作的概率都爲1/2, 通過貝爾曼方程得到了下面四個等式，因爲S4是終點所以值爲0. 聯立方程組求得每個狀態價值函數的值爲0,2,2,0. 但是通常狀態空間要大很多，解方程組的