周志華機器學習 Day30

時間 2021-07-12

標籤周志華機器學習简体版

原文原文鏈接

有模型學習模型已知：機器已對環境進行了建模，能在機器內部模擬出與環境相同或近似的狀況。在已知模型的環境中的學習稱爲「有模型學習」。 1、策略評估在模型已知時，對任意策略π能估計出該策略帶來的期望累積獎賞，令函數表示從狀態x出發，使用策略π所帶來的累積獎賞；函數表示從狀態x出發，執行動作α後再使用策略π帶來的累積獎賞。這裏的稱爲「狀態值函數」，稱爲「狀態-動作值函數」，分別表示指定「狀態」上以及

>>阅读原文<<