百面機器學習(11)——強化學習

目錄 強化學習基礎(馬爾可夫決策過程價值迭代,策略迭代) 視頻遊戲裏的強化學習(Q-learning) 策略梯度 探索與利用 強化學習基礎(馬爾可夫決策過程價值迭代,策略迭代) 場景描述:假設我們有一個3x3的棋盤,其中有一個單元格時馬里奧,另一個單元格是寶藏,如圖11.1所示,在遊戲的每個回合,可以往上、下、左、右四個方向移動馬里奧,直到馬里奧找到寶藏,遊戲結束。在這個場景中,強化學習需要定義一
相關文章
相關標籤/搜索