[Python機器學習]強化學習筆記(嵩天禮欣老師mooc第三週)

目錄 強化學習 定義 馬爾科夫決策過程 基本元素 值函數 最優值函數 最優控制 Q-Learning 強化學習 定義 舉例: 目標:在每種狀態下采取最優的動作。 學習目標:獲得最優策略以使累計獎勵最大(即score)。 馬爾科夫決策過程 馬爾科夫決策過程(MDP:Markov Decision Process)通常用來描述一個強化學習問題。 智能體agent根據當前對環境的觀察採取動作獲得環境的反
相關文章
相關標籤/搜索