強化學習習題-動態規劃策略學習格子問題

題目描述-格子游戲:         每一個格子等概率向着4個方向移動,每次移動一步,收益爲 -1 ,移動到出口結束遊戲。若當前移動會導致出界,則移動後位置不變: (1)策略估值:使用動態規劃方法求當前策略下每一格子對應的狀態估值 解:   (2) 策略提升:寫出上述估值函數對應的貪心策略 解: (3)最優策略:求解該問題最優策略及其相應的狀態估值 解: 狀態不變,最大策略爲:
相關文章
相關標籤/搜索