構建強化學習系統,你需要先了解這些背景知識

選自joshgreaves 機器之心編譯 強化學習(RL)是關於序列決策的一種工具,它可以用來解決科學研究、工程文理等學科的一系列問題,它也是圍棋程序 AlphaGo 的重要組成部分。本文旨在分享 85 頁強化學習課本中最重要的內容,我們從最基礎的馬爾科夫決策過程開始一步步構建形式化的強化學習框架,然後再詳細探討貝爾曼方程以打好強化學習的基礎。當然,如果你想更全面地瞭解這一主題,建議閱讀 Rich
相關文章
相關標籤/搜索