強化學習系列之一:馬爾科夫決策過程

http://www.algorithmdog.com/%e5%bc%ba%e5%8c%96%e5%ad%a6%e4%b9%a0-%e9%a9%ac%e5%b0%94%e7%a7%91%e5%a4%ab%e5%86%b3%e7%ad%96%e8%bf%87%e7%a8%8b 文章目錄 [隱藏] 1. 馬爾科夫決策過程 2. 策略和價值 3. 最優策略存在性和貝爾曼等式 強化學習系列系列文章    
相關文章
相關標籤/搜索