百面機器學習（11）——強化學習

時間 2021-01-15

標籤深度學習機器學習简体版

原文原文鏈接

目錄強化學習基礎（馬爾可夫決策過程價值迭代，策略迭代）視頻遊戲裏的強化學習（Q-learning）策略梯度探索與利用強化學習基礎（馬爾可夫決策過程價值迭代，策略迭代）場景描述：假設我們有一個3x3的棋盤，其中有一個單元格時馬里奧，另一個單元格是寶藏，如圖11.1所示，在遊戲的每個回合，可以往上、下、左、右四個方向移動馬里奧，直到馬里奧找到寶藏，遊戲結束。在這個場景中，強化學習需要定義一

>>阅读原文<<