馬可夫決策與貝爾曼方程

強化學習系列之一:馬爾科夫決策過程 發表於 2016年4月4日 由 lili 文章目錄 [隱藏] 1. 馬爾科夫決策過程 2. 策略和價值 3. 最優策略存在性和貝爾曼等式 強化學習系列系列文章       機器學習一共有三個分支,有監督學習、無監督學習和強化學習。強化學習是系統從環境學習以使得獎勵最大的機器學習。強化學習和有監督學習的不同在於教師信號。強化學習的教師信號是動作的獎勵,有監督學習的
相關文章
相關標籤/搜索