強化學習（五）用時序差分法（TD）求解

時間 2020-12-30

原文原文鏈接

　　　　在強化學習（四）用蒙特卡羅法（MC）求解中，我們講到了使用蒙特卡羅法來求解強化學習問題的方法，雖然蒙特卡羅法很靈活，不需要環境的狀態轉化概率模型，但是它需要所有的採樣序列都是經歷完整的狀態序列。如果我們沒有完整的狀態序列，那麼就無法使用蒙特卡羅法求解了。本文我們就來討論可以不使用完整狀態序列求解強化學習問題的方法：時序差分(Temporal-Difference, TD)。　　　　時序差