強化學習(七):n步自舉法(多步引導法)

強化學習(七):n步自舉法(多步引導法)   在之前,我們知道求解有限馬爾可夫決策過程可以通過蒙特卡洛和時序差分來通過與環境多次交互從經驗中學習,然而,蒙特卡洛方法在一些不滿足分幕式任務或連續型任務上無法獲得最終的收益,因此我們引入時序差分方法。時序差分的思想就是將下一時刻的狀態價值或下一時刻的狀態動作價值作爲估計值,用於估計當前狀態價值或動作價值。時序差分是一種結合採樣和自舉的方法,那麼一種介於
相關文章
相關標籤/搜索