強化學習在船舶中的應用(四)——三種方法

強化學習的三種方法 前面文章已經定義了有關強化學習的主要概念,下面繼續講解解決強化學習問題的三種方法。 (一)基於價值 在基於價值的智能體中,其目標是優化價值函數V(s)。價值函數是一個函數,它用來刻畫智能體在每個狀態下獲得的最大預期未來獎勵。每個狀態的價值是從該狀態開始,智能體在未來積累的獎勵總和(期望)。 智能體通過使用值函數,在每個步驟中對下一個狀態進行選擇。智能體獲得具有最大期望價值的狀態
相關文章
相關標籤/搜索