馬可夫決策與貝爾曼方程

時間 2021-01-06

原文原文鏈接

強化學習系列之一:馬爾科夫決策過程發表於 2016年4月4日由 lili 文章目錄 [隱藏] 1. 馬爾科夫決策過程 2. 策略和價值 3. 最優策略存在性和貝爾曼等式強化學習系列系列文章機器學習一共有三個分支，有監督學習、無監督學習和強化學習。強化學習是系統從環境學習以使得獎勵最大的機器學習。強化學習和有監督學習的不同在於教師信號。強化學習的教師信號是動作的獎勵，有監督學習的

>>阅读原文<<