強化學習基礎 | (5) 用時序差分法(TD)求解

原文地址 作者:劉建平 在用蒙特卡羅法(MC)求解中,我們講到了使用蒙特卡羅法來求解強化學習問題的方法,雖然蒙特卡羅法很靈活,不需要環境的狀態轉化概率模型,但是它需要所有的採樣序列都是經歷完整的狀態序列。如果我們沒有完整的狀態序列,那麼就無法使用蒙特卡羅法求解了。本文我們就來討論可以不使用完整狀態序列求解強化學習問題的方法:時序差分(Temporal-Difference, TD)。 時序差分這一
相關文章
相關標籤/搜索