強化學習方法分類

時間 2021-01-06

原文原文鏈接

一、理解環境or感知環境 Model-based：先理解真實世界是怎樣的，並建立一個模型來模擬現實世界的反饋，通過想象來預判新下來將要發生的所有情況，然後選擇這些想象情況中最好的那種，並依據這種情況來採取下一步的策略。 Model-free：不依賴環境，不嘗試去理解環境，Agent會根據現實環境的反饋採取下一步的動作，一步一步等待真實世界的反饋，再根據反饋採取下一步行動。 ■例如Q-learnin

>>阅读原文<<