周志華 機器學習 Day30

有模型學習 模型已知:機器已對環境進行了建模,能在機器內部模擬出與環境相同或近似的狀況。在已知模型的環境中的學習稱爲「有模型學習」。 1、策略評估 在模型已知時,對任意策略π能估計出該策略帶來的期望累積獎賞,令函數表示從狀態x出發,使用策略π所帶來的累積獎賞;函數表示從狀態x出發,執行動作α後再使用策略π帶來的累積獎賞。這裏的稱爲「狀態值函數」,稱爲「狀態-動作值函數」,分別表示指定「狀態」上以及
相關文章
相關標籤/搜索