多智能體強化學習入門（一）——基礎知識與博弈

時間 2021-01-16

原文原文鏈接

一、引言在多智能體系統中，每個智能體通過與環境進行交互獲取獎勵值（reward）來學習改善自己的策略，從而獲得該環境下最優策略的過程就多智能體強化學習。在單智能體強化學習中，智能體所在的環境是穩定不變的，但是在多智能體強化學習中，環境是複雜的、動態的，因此給學習過程帶來很大的困難。維度爆炸：在單體強化學習中，需要存儲狀態值函數或動作-狀態值函數。在多體強化學習中，狀態空間變大，聯結動作空間（

>>阅读原文<<