強化學習中無處不在的貝爾曼最優性方程，背後的數學原理知多少？

時間 2021-01-06

原文原文鏈接

在星際爭霸（AlphaStar）和圍棋（AlphaGO）遊戲中，強化學習已取得了舉世矚目的成功。而這些成功背後的核心則是用於求解馬爾可夫決策過程（MDP）的貝爾曼最優性方程（Bellman Optimality Equation）。可以說，貝爾曼方程在強化學習（RL）中無處不在，瞭解此方程的數學基礎對於理解 RL 算法的工作原理必不可少。它是由美國應用數學家理查德·貝爾曼（Richard Bel

>>阅读原文<<