強化學習在船舶中的應用（四）——三種方法

時間 2021-07-12

原文原文鏈接

強化學習的三種方法前面文章已經定義了有關強化學習的主要概念，下面繼續講解解決強化學習問題的三種方法。（一）基於價值在基於價值的智能體中，其目標是優化價值函數V（s）。價值函數是一個函數，它用來刻畫智能體在每個狀態下獲得的最大預期未來獎勵。每個狀態的價值是從該狀態開始，智能體在未來積累的獎勵總和（期望）。智能體通過使用值函數，在每個步驟中對下一個狀態進行選擇。智能體獲得具有最大期望價值的狀態