強化學習（RLAI）讀書筆記第五章蒙特卡洛方法

時間 2021-01-03

標籤強化學習简体版

原文原文鏈接

第五章：蒙特卡洛方法和前幾章講的不一樣，蒙特卡洛方法不需要對環境進行完全的建模，而只需要經驗，也就是實際或者仿真的與環境進行交互的整個樣本序列，包括狀態動作和反饋信息。從實際交互中學習並不需要對環境建模，而從仿真交互中學習也只需要能夠產生相應的轉移樣本而不是完整的環境狀態轉移概率分佈。而且很多的例子中產生相應的交互例子很容易，得到概率分佈卻很難。蒙特卡洛方法採用平均樣本反饋的方法來解決強化學習

>>阅读原文<<