強化學習無模型與基於模型區別

時間 2021-05-11

標籤強化學習简体版

原文原文鏈接

瞭解強化學習，我們首先得知道Bellman方程：其可表示爲遞歸形式的狀態價值方程形式： http://www.javashuo.com/article/p-qalsmugy-ut.html 一句話，有模型與無模型的區別，在於是否已知當前狀態、動作轉移至下一狀態及獲得獎勵的分佈，若能直接提供給強化學習算法，則稱之爲基於模型。參考至網頁中的分析。

>>阅读原文<<