微軟發佈了 一款打麻將的 AI 模型,在專業的競技平臺上成功達到最高段位。在這項風靡全國甚至全球的娛樂活動上, AI 雀神的誕生究竟克服了哪些困難,這項技術的誕生又有哪些深層的意義。算法
在今日舉行的世界人工智能大會上,微軟發佈了一個「雀神 AI」——Suphx,在專業的麻將競技平臺上,實力賽過了頂級人類選手的平均水平。學習
Suphx,全稱是 Super Phoenix(超級鳳凰),於 2019 年 3 月登錄日本專業的麻將競技平臺「天鳳」。人工智能
在這個最知名的麻將平臺上, AI 可以參與的公開競技「特上房」中,Suphx 與人類選手展開了 5000 餘場四人麻將對局,逐漸打出了本身的實力和水準。spa
到了 6 月份, Suphx 達到了特上房的最高段位十段,而限制 Suphx 沒能問鼎最十一段位「天鳳位」的,只是平臺還不容許 AI 系統進入最高級的房間對戰。.net
天鳳平臺自 2006 年推出以來,四人麻將達到過十段的選手約有 180 位,而現役的十段人類選手也不過十幾位。但在衡量實力水平的穩定段位上,Suphx 達到了 8.7 段,遠遠高出人類十段選手的 7.4 段。設計
此前,天鳳平臺還活躍着另外兩個麻將 AI 系統,分別是 2015 年由東京大學發佈的「爆打」,以及 2018 年由 Dwango 發佈的「NAGA25」,但兩者的穩定段位均低於 6.5,被 Suphx 遠遠地甩在了身後。3d
千年歷史的麻將:緩慢演進的大衆休閒
麻將,也稱「麻雀」或「雀牌」等,是正宗的國粹。調試
有關麻將起源的說法五花八門,至於其真相也無從考證,但能夠肯定的是,麻將自從問世後,做爲全民娛樂項目,麻將一直流行於民間,經久不衰。blog
而麻將牌的符號和製做也歷經了屢次變遷,最先的麻將牌竹子和動物骨頭製做,此後還有過紙牌的時期。遊戲
在達官貴人中,還曾用犀牛角,象牙,金銀銅,青花瓷來製做,彼時的麻將牌由精工巧將們一張張雕刻而來。
直到 1960 年之後,塑料用品的普及,以及機械化的發展,使得麻將逐漸以材料被大量生產。
但除了製做工藝上的變化,麻將裏的最高科技,除了 AI,可能就是自動麻將機了。
AI 胡牌,全靠推理
在 AI 研究以前,不少人一度認爲麻將中,運氣是決定性的因素。但其實麻將的競技規則,實際上是很複雜的問題。
136 張麻將的排列組合有許多種結果,同一玩家兩次出牌之間,夾雜了其餘 3 位玩家的出牌,還有本身的摸牌,並且還有「吃」、「碰」、「槓」都會讓牌局產生動態變化。
其次這是一個非完美信息問題。每一個玩家只能知道本身的 13 張手牌,以及被打出的牌,而其餘人的牌和剩餘底牌都是未知,這些隱藏信息致使了變數衆多。
即使是頗有經驗的玩家,也難以理清已知牌面和最佳打法之間的邏輯關係,豐富的隱藏信息會致使遊戲的複雜度加重。
這須要在整個過程當中,作好策略的規劃,好比在局勢不利的狀況下,戰略性地「放炮」讓第四名玩家獲勝,以防止被總分第二名的反超。
所以,想要打造一個高手麻將 AI ,只有強大的算力是不夠的,更須要的還在於,讓 AI 具備直覺、預測、推理和模糊決策的能力。
成爲一代雀神,靠深度強化學習
針對上述難點,微軟利用深度強化學習打造的 Suphx,經過最新的算法,一步步在學習和調試中,晉升成了競技麻將的最強雀神。
首先是「初始化」階段,利用「天鳳」平臺的公開數據,研究人員經過有監督學習,獲得一個初始模型,並在模型基礎上,用自我博弈的方式進行強化學習訓練。
隨後,針對非完美信息博弈的挑戰,Suphx 創新性地嘗試了先知教練技術來提高強化學習的效果。
在訓練階段,利用不可見的隱藏信息,引導 AI 模型的訓練方向,讓它的學習路徑更加清晰、貼近完美信息意義下的最優路徑,從而促使 AI 模型深刻理解可見信息,從中找到有效的策略。
此外,對於麻將複雜的牌面表達和計分機制,他們利用全盤預測技術,搭建起每輪比賽和 8 輪事後的終盤結果之間的橋樑。
經過精巧設計的預測器,模型可以理解每輪比賽對最終結果的影響,從而有全局性的決策視角。
研究團隊還引入了新的機制,可以對牌局的過程進行動態調控,讓 Suphx 在推理階段根據最新信息進行策略調整,做出自適應的決策。
最後就是進入實戰,經過不斷參與到人類玩家的對局中,讓 AI 不斷學習以提高本身的技能。
自 3 月進入天鳳平臺以後,Suphx 一直在不斷的自我進化。目前,在平衡攻擊和防護方面,Suphx 可以實現比頂尖人類玩家更明智的策略,戰略性地完成短時間損失與長期收益之間的權衡,並根據已有的模糊信息進行快速決策。
麻將 AI :不止是牌桌上的勝負
得益於其新算法和訓練技巧, Suphx 在打法和風格上獨樹一幟。
天鳳平臺上的的頂級人類玩家,就在社交媒體上盛讚 Suphx,他以爲本身看了不少 Suphx 的比賽,學到了不少未曾見過的技術。
此外,還有不少玩家都說在 Suphx 的對戰中,學到了實用的對戰技巧,所以也紛紛將其稱爲「麻將教科書」、「Suphx 老師」。
對於麻將的輸贏,市井百姓享受的是運氣和經驗的快感,而高手享受的是智力的較量。
這樣一個「雀神」AI ,除了打造一個無敵的麻將教練,還能打開全新的視角,讓咱們從數據算法的維度,去解析這項娛樂。
再也不像一個賭徒般依賴於運氣,而在腦力的光環之下,逐漸拋下那些隨機的不定的東西,探索出一套勝利的規律。
這不正是 AI 發展之路上,最迷人的一束光嗎?