AMiner平臺(https://www.aminer.cn)由清華大學計算機系研發,擁有我國徹底自主知識產權。平臺包含了超過2.3億學術論文/專利和1.36億學者的科技圖譜,提供學者評價、專家發現、智能指派、學術地圖等科技情報專業化服務。系統2006年上線,吸引了全球220個國家/地區1000多萬獨立IP訪問,數據下載量230萬次,年度訪問量超過1100萬,成爲學術搜索和社會網絡挖掘研究的重要數據和實驗平臺。web
必讀論文:https://www.aminer.cn/topic網絡
論文集地址:https://www.aminer.cn/topic/6017af5a92c7f9be21c931d2svg
近年來,隨着強化學習在多個應用領域取得了使人矚目的成果,而且考慮到在現實場景中一般會同時存在多個決策個體(智能體),部分研究者逐漸將眼光從單智能體領域延伸到多智能體,即多智能體強化學習(multi-agent reinforcement learning)。當同時存在多個智能體與環境交互時,整個系統就變成一個多智能體系統。每一個智能體仍然是遵循着強化學習的目標,也就是是最大化可以得到的累積回報,而此時環境全局狀態的改變就和全部智能體的聯合動做相關了。所以在智能體策略學習的過程當中,須要考慮聯合動做的影響。學習
該論文集共收錄52篇論文,最高引用數是2154,來自加利福尼亞大學伯克利分校的Pieter Abbeel在該領域發表了6篇論文,在全部學者中最多。
url
訂閱瞭解更多論文信息,定製您的我的科研動態信息流:https://www.aminer.cn/user/notification?f=mt.net
本文同步分享在 博客「AMiner科技」(CSDN)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。xml