如何求強化學習最優解

時間 2021-01-19

原文原文鏈接

在一篇文章強化學習與馬爾可夫決策中，介紹了使用馬爾可夫決策過程對強化學習的過程進行建模。通過建模可以得出，只要求解最優價值函數，即可得到對應的最優策略。那麼如何求解最優價值函數呢？本篇文章將介紹一些最優價值函數的求解算法。 predict和control 首先介紹一下強化學習的兩個基本問題，預測和控制。 predict 在已知狀態集，動作集，模型狀態轉化概率矩陣，即時獎勵，衰減因子的條件

>>阅读原文<<