[Python機器學習]強化學習筆記（嵩天禮欣老師mooc第三週）

時間 2021-01-13

標籤機器學習強化學習 python mooc 人工智能欄目 Python 简体版

原文原文鏈接

目錄強化學習定義馬爾科夫決策過程基本元素值函數最優值函數最優控制 Q-Learning 強化學習定義舉例：目標：在每種狀態下采取最優的動作。學習目標：獲得最優策略以使累計獎勵最大（即score）。馬爾科夫決策過程馬爾科夫決策過程（MDP:Markov Decision Process）通常用來描述一個強化學習問題。智能體agent根據當前對環境的觀察採取動作獲得環境的反

>>阅读原文<<