強化學習 之 模型無關控制方法

(1)如何理解強化學習中的控制和預測這兩個名詞? 在強化學習中我們經常會遇到預測(prediction)和控制(control)這兩個詞。預測問題指的是求解在給定策略(policy)下的價值函數(value function)的過程;而控制問題指的是如何獲得一個儘量好的策略來最大化累計獎勵(accumulated return)。因此,強化學習的過程常常是在解決預測問題的基礎上,進而解決控制問題。
相關文章
相關標籤/搜索