強化學習（七）：n步自舉法（多步引導法）

時間 2021-01-21

標籤強化學習多步引導法 n步自舉简体版

原文原文鏈接

強化學習（七）：n步自舉法（多步引導法）在之前，我們知道求解有限馬爾可夫決策過程可以通過蒙特卡洛和時序差分來通過與環境多次交互從經驗中學習，然而，蒙特卡洛方法在一些不滿足分幕式任務或連續型任務上無法獲得最終的收益，因此我們引入時序差分方法。時序差分的思想就是將下一時刻的狀態價值或下一時刻的狀態動作價值作爲估計值，用於估計當前狀態價值或動作價值。時序差分是一種結合採樣和自舉的方法，那麼一種介於

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。