強化學習方法分類

一、理解環境or感知環境 Model-based:先理解真實世界是怎樣的,並建立一個模型來模擬現實世界的反饋,通過想象來預判新下來將要發生的所有情況,然後選擇這些想象情況中最好的那種,並依據這種情況來採取下一步的策略。 Model-free:不依賴環境,不嘗試去理解環境,Agent會根據現實環境的反饋採取下一步的動作,一步一步等待真實世界的反饋,再根據反饋採取下一步行動。 ■例如Q-learnin
相關文章
相關標籤/搜索