多智能體強化學習入門(一)——基礎知識與博弈

一、引言 在多智能體系統中,每個智能體通過與環境進行交互獲取獎勵值(reward)來學習改善自己的策略,從而獲得該環境下最優策略的過程就多智能體強化學習。 在單智能體強化學習中,智能體所在的環境是穩定不變的,但是在多智能體強化學習中,環境是複雜的、動態的,因此給學習過程帶來很大的困難。 維度爆炸:在單體強化學習中,需要存儲狀態值函數或動作-狀態值函數。在多體強化學習中,狀態空間變大,聯結動作空間(
相關文章
相關標籤/搜索