騰訊AI Lab絕悟團隊奪冠Kaggle足球AI競賽


Google Research 與英超曼城俱樂部在 Kaggle 平臺上聯合舉辦的 11v11 足球 AI 競賽 Google Football 近日宣佈最終結果:騰訊 AI Lab 絕悟 WeKick 版本(下稱絕悟)以 1785.8 的分數得到冠軍,且相比於其它隊伍優點很是明顯。算法


Kaggle 競賽 google-football 排行榜前十名,來自 https://www.kaggle.com/c/google-football/leaderboardapi


比賽使用的 Google Research Football 環境,是基於開源足球遊戲 Gameplay Football 開發的強化學習環境。因爲其兼具挑戰性和趣味性,一經推出便吸引海內外隊伍踊躍參加,截至 12 月中旬,已經吸引了來自世界各地的 1100 多個團隊,其中包含多支世界頂級學府和研究機構的科研強隊。微信


今年 11 月 28 日,騰訊 AI Lab 宣佈與王者榮耀聯合研發的策略協做型 AI「絕悟」升級成了徹底體,讓 AI 掌握了全部英雄的全部技能。僅一個月後,「絕悟」又在競爭如此激烈的競賽中以顯著優點脫穎而出,足以證實「絕悟」工程開發實力和背後深度強化學習方法的優點。架構


Google Football 競賽是什麼?app



Google Football 是基於全世界最受歡迎的體育運動「足球」打造的「11 個強化學習智能體的合做與對抗」競賽。在競勝過程中,其規則與普通足球比賽相似,好比目標都是將球踢入對方球門以及越位、黃牌和紅牌規則。在具體細則上也有一些不一樣的之處,如比賽分上下半場(各 45 分鐘,1500 步,兩支球隊各開球一次),遊戲場景是徹底對稱的(因此沒有左右換場的必要性)、沒有替補球員、沒有加時賽、進球多獲勝(不然平局)等。框架


不一樣於常見足球電子遊戲的統一調控式 NPC 球隊,Google Football 競賽的參賽球隊中每一個球員都各由一個單獨的智能體控制,參賽團隊須要實時選擇並控制其中一個智能體,與其餘內置智能體配合。所以,每一個球員不只須要觀察對手的行爲,還須要留意己方隊員的狀況。這須要很是複雜的團隊協做和競爭策略。異步


舉個例子,當對方球員控球時,己方智能體不只要根據球場上雙方球員的分佈位置預測控球球員的下一步動做,還須要與己方球員協同如何合規地奪取足球的控制權。且因爲球場動態瞬息萬變,所以高速的實時決策能力也是必需的。編輯器


絕悟與其餘AI配合傳球分佈式


此外,從零開始徹底採用強化學習方法來訓練完整的足球AI實際上也至關困難。與MOBA遊戲中不斷有經濟、血量、經驗等實時學習信號不一樣,足球的遊戲激勵很是稀疏,基本只能依靠進球,而稀疏激勵一直是目前強化學習一大難題。ide


實際上,正是因爲足球運動團隊策略的複雜性、多樣性和高難度,AI 領域的先驅們很早就已開始嘗試基於足球研究人工智能技術。機器人世界盃 RoboCup 在 1992 年應運而生,此後每一年舉辦機器人足球比賽,一直延續至今。RoboCup 的目標是到2050年,機器人球隊能賽過人類足球世界冠軍隊。然而直到今天,不管是在機器人運動仿真度上仍是機器人團隊決策能力上,進展依然緩慢,離目標還有很遠的距離。只要看看 RoboCup 機器人摔倒的搞笑視頻集錦就能明白這一點。


儘管如此,進步仍舊切實存在。得益於深度強化學習在遊戲領域日新月異的發展,從 Atari 遊戲到圍棋再到多種不一樣的電子遊戲,AI 智能體在不斷的迭代演化中正變得愈來愈強大。這次奪冠的絕悟版本經過兩項關鍵技術實現了優於其它競爭 AI 球隊的優點。


WeKick vs SaltyFish(第二名)近期的一局比賽記錄,成績爲 3:2


絕悟的奪冠祕籍


和大多數參賽隊伍同樣,絕悟也主要採用了強化學習和自博弈(Self-Play)來從零開始訓練模型的方法。其訓練的基礎架構是基於「絕悟」徹底體的架構遷移獲得的,詳情參閱《騰訊絕悟AI徹底體限時開放體驗,研究登上國際頂會與頂刊》。基於此,騰訊 AI Lab 又針對足球任務對該框架作針對性改進,使其能適應 11 智能體足球遊戲訓練環境。


爲此,騰訊 AI Lab 部署了一種異步的分佈式強化學習框架。雖然該異步架構犧牲了訓練階段的部分實時性能,但靈活性卻獲得顯著提高,並且還支持在訓練過程當中按需調整計算資源。此外,因爲 MOBA 遊戲和足球遊戲任務目標的差別,團隊還在特徵與獎勵設計上進行了擴展和創新。這些改進加上關鍵性的生成對抗模擬學習(GAIL)方案和 League 多風格強化學習訓練方案,最終鋪就了絕悟的冠軍之路。


架構概況


具體來講,該模型由一些密集層(每層 256 維)和一個 LSTM 模塊(32 步,256 隱藏單元)構成。訓練過程採用了一種改進版的近端策略優化(PPO)強化學習算法。學習率固定爲 1e-4。參數更新則採用了 Adam 優化器。這套方案能實現很是快速的適應和迭代,且內存佔用也較爲合理。


在算法上,絕悟整體上採用了一種改進版 PPO 強化學習算法,這與不久以前發佈的「絕悟」徹底體的架構一致。簡單來講,PPO 算法的思路在每一個步驟計算更新時不只會保證成本函數儘量地小,並且還會確保與以前策略的誤差相對較小。這一策略能克服強化學習難以調試的缺點,在實現難度、樣本複雜度和調試難度之間取得合適的平衡。


在價值估計上,採用了「絕悟」徹底體的多頭價值(MHV)估計方案,即獎勵會被分解爲多個頭,而後再使用不一樣的折現因子彙集到一塊兒。採用這一方案的緣由是某些事件僅與近期的動做相關,好比攔截、越位和剷球;另外一些事件則涉及一系列決策,好比進球。所以不一樣事件的獎勵會具備不一樣的權重。


在特徵設計上,研究者對標準的 115 維向量進行了擴展,使之包含了更多特徵,好比隊友與對手的相對姿態(位置與方向)、活動球員與足球之間的相對姿態、標記可能越位的隊友的越位標籤、紅/黃牌狀態等特徵。這些擴展爲訓練速度帶來了 30% 的效率增益。


除了人工設計的獎勵,絕悟還採用了生成對抗模擬學習(GAIL),該方案利用了生成對抗訓練機制來擬合專家行爲的狀態和動做分佈,使其能夠從其它球隊學習。好比某個 AI 球隊展示出的「反攻(counter attack)」策略就給研究者留下了深入印象,即接球后退→傳到守門員→守門員高傳到前場。這是一種相對複雜的序列動做,難以經過人工方法定義其獎勵;但使用 GAIL,絕悟能夠成功地基於回放(replay)進行學習。而後,再將 GAIL 訓練的模型做爲固定對手進行進一步自博弈訓練,絕悟的穩健性獲得了進一步提高。


GAIL 的優點

(WeKick 的獎勵設計綜合了 Reward Shaping 和 GAIL 兩種方案)


經過自博弈強化學習獲得的模型有一個自然的缺點:很容易收斂到單一風格;在實際比賽的時候單一風格的模型很容易發生因爲沒見過某種打法而表現失常,最終致使成績不佳。因而爲了提高策略的多樣性和穩健性,絕悟還採用了 針對多智能體學習任務的 League 多風格強化學習訓練方案。



其主要流程可簡單總結爲先專精後綜合:


1. 訓練一個基礎模型,具有必定程度競技能力,好比運球過人、傳球配合、射門得分;

2. 基於基礎模型訓練出多個風格化模型,每一個模型專一一種風格打法;在風格化模型訓練的過程當中會按期加入主模型做爲對手,避免過分堅持風格,丟失基本能力;

3. 基於基礎模型訓練一個主模型,主模型除了以本身的歷史模型爲對手之外,還會按期加入全部風格化對手的最新模型做爲對手,確保主模型的策略具有魯棒性,可以適應風格徹底不一樣的對手。


內部能力評分系統顯示,加入對手池訓練之後的主模型,能夠在基礎模型的上提升 200 分,比最強的風格化打法高 80 分。



研究者認爲,基於 League 的多風格強化學習和基於 GAIL 的風格學習方法是保證 WeKick 最終獲勝的兩大關鍵祕籍。固然,在「絕悟」框架基礎上針對足球任務的一些改進設計也必不可少。


展望將來


絕悟 WeKick 版本的總體設計是基於「絕悟」徹底體遷移獲得的,而後針對足球任務進行了一些針對性的調整,這也證實了騰訊 AI Lab 開發的「絕悟」的底層架構與方法的通用性,能夠預見這類方法將來還有望進一步遷移至機器人等更多領域,從而創造更大的實用價值。


從圍棋 AI 「絕藝」到策略決策型 AI 「絕悟」,再到現在的 AI 足球隊絕悟 WeKick 版本,騰訊 AI Lab 的深度強化學習智能體步步進化,逐漸向更復雜更多樣化的問題遷移,其中的每一次進展都讓咱們離通用人工智能終極目標更近了一步。


本文轉載自騰訊AI實驗室

END



備註:強化

強化學習交流羣

關注最新最前沿的強化學習技術,

若已爲CV君其餘帳號好友請直接私信。

我愛計算機視覺

微信號:aicvml

QQ羣:805388940

微博知乎:@我愛計算機視覺

投稿:amos@52cv.net

網站:www.52cv.net

在看,讓更多人看到  

本文分享自微信公衆號 - 我愛計算機視覺(aicvml)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。

相關文章
相關標籤/搜索