一家胡三家的人工智能來了

微軟發佈了 一款打麻將的 AI 模型,在專業的競技平臺上成功達到最高段位。在這項風靡全國甚至全球的娛樂活動上, AI 雀神的誕生究竟克服了哪些困難,這項技術的誕生又有哪些深層的意義。算法

在今日舉行的世界人工智能大會上,微軟發佈了一個「雀神 AI」——Suphx,在專業的麻將競技平臺上,實力賽過了頂級人類選手的平均水平。學習

Suphx,全稱是 Super Phoenix(超級鳳凰),於 2019 年 3 月登錄日本專業的麻將競技平臺「天鳳」。人工智能

微軟全球執行副總裁沈向洋現場介紹 Suphx

在這個最知名的麻將平臺上, AI 可以參與的公開競技「特上房」中,Suphx 與人類選手展開了 5000 餘場四人麻將對局,逐漸打出了本身的實力和水準。spa

到了 6 月份, Suphx 達到了特上房的最高段位十段,而限制 Suphx 沒能問鼎最十一段位「天鳳位」的,只是平臺還不容許 AI 系統進入最高級的房間對戰。.net

天鳳平臺自 2006 年推出以來,四人麻將達到過十段的選手約有 180 位,而現役的十段人類選手也不過十幾位。但在衡量實力水平的穩定段位上,Suphx 達到了 8.7 段,遠遠高出人類十段選手的 7.4 段。設計

Suphx 是天鳳平臺上全部 AI 裏的最高水平

此前,天鳳平臺還活躍着另外兩個麻將 AI 系統,分別是 2015 年由東京大學發佈的「爆打」,以及 2018 年由 Dwango 發佈的「NAGA25」,但兩者的穩定段位均低於 6.5,被 Suphx 遠遠地甩在了身後。3d

千年歷史的麻將:緩慢演進的大衆休閒

麻將,也稱「麻雀」或「雀牌」等,是正宗的國粹。調試

有關麻將起源的說法五花八門,至於其真相也無從考證,但能夠肯定的是,麻將自從問世後,做爲全民娛樂項目,麻將一直流行於民間,經久不衰。blog

麻將的前身,最先可追溯到漢代的葉子戲牌

而麻將牌的符號和製做也歷經了屢次變遷,最先的麻將牌竹子和動物骨頭製做,此後還有過紙牌的時期。遊戲

在達官貴人中,還曾用犀牛角,象牙,金銀銅,青花瓷來製做,彼時的麻將牌由精工巧將們一張張雕刻而來。

LV、Prada、愛馬仕這些國際品牌,都曾推出太高級定製麻將

直到 1960 年之後,塑料用品的普及,以及機械化的發展,使得麻將逐漸以材料被大量生產。

但除了製做工藝上的變化,麻將裏的最高科技,除了 AI,可能就是自動麻將機了。

AI 胡牌,全靠推理

在 AI 研究以前,不少人一度認爲麻將中,運氣是決定性的因素。但其實麻將的競技規則,實際上是很複雜的問題。

136 張麻將的排列組合有許多種結果,同一玩家兩次出牌之間,夾雜了其餘 3 位玩家的出牌,還有本身的摸牌,並且還有「吃」、「碰」、「槓」都會讓牌局產生動態變化。

其次這是一個非完美信息問題。每一個玩家只能知道本身的 13 張手牌,以及被打出的牌,而其餘人的牌和剩餘底牌都是未知,這些隱藏信息致使了變數衆多。

幾種牌類遊戲的複雜度對比

即使是頗有經驗的玩家,也難以理清已知牌面和最佳打法之間的邏輯關係,豐富的隱藏信息會致使遊戲的複雜度加重。

這須要在整個過程當中,作好策略的規劃,好比在局勢不利的狀況下,戰略性地「放炮」讓第四名玩家獲勝,以防止被總分第二名的反超。

所以,想要打造一個高手麻將 AI ,只有強大的算力是不夠的,更須要的還在於,讓 AI 具備直覺、預測、推理模糊決策的能力。

成爲一代雀神,靠深度強化學習

針對上述難點,微軟利用深度強化學習打造的 Suphx,經過最新的算法,一步步在學習和調試中,晉升成了競技麻將的最強雀神。

雀神 Suphx 是這麼作到的

首先是「初始化」階段,利用「天鳳」平臺的公開數據,研究人員經過有監督學習,獲得一個初始模型,並在模型基礎上,用自我博弈的方式進行強化學習訓練。

隨後,針對非完美信息博弈的挑戰,Suphx 創新性地嘗試了先知教練技術來提高強化學習的效果。

在訓練階段,利用不可見的隱藏信息,引導 AI 模型的訓練方向,讓它的學習路徑更加清晰、貼近完美信息意義下的最優路徑,從而促使 AI 模型深刻理解可見信息,從中找到有效的策略。

經典的搜索樹結構,AI 但願最小化對手的最大收益,但不適用於麻將遊戲

此外,對於麻將複雜的牌面表達和計分機制,他們利用全盤預測技術,搭建起每輪比賽和 8 輪事後的終盤結果之間的橋樑。

經過精巧設計的預測器,模型可以理解每輪比賽對最終結果的影響,從而有全局性的決策視角。

研究團隊還引入了新的機制,可以對牌局的過程進行動態調控,讓 Suphx 在推理階段根據最新信息進行策略調整,做出自適應的決策。

最後就是進入實戰,經過不斷參與到人類玩家的對局中,讓 AI 不斷學習以提高本身的技能。

該局中,Suphx 不只胡牌仍是大三元

自 3 月進入天鳳平臺以後,Suphx 一直在不斷的自我進化。目前,在平衡攻擊和防護方面,Suphx 可以實現比頂尖人類玩家更明智的策略,戰略性地完成短時間損失與長期收益之間的權衡,並根據已有的模糊信息進行快速決策。

麻將 AI :不止是牌桌上的勝負

得益於其新算法和訓練技巧, Suphx 在打法和風格上獨樹一幟。

天鳳平臺上的的頂級人類玩家,就在社交媒體上盛讚 Suphx,他以爲本身看了不少 Suphx 的比賽,學到了不少未曾見過的技術。

此外,還有不少玩家都說在 Suphx 的對戰中,學到了實用的對戰技巧,所以也紛紛將其稱爲「麻將教科書」、「Suphx 老師」。

136 張的麻將帶來的技術啓示

對於麻將的輸贏,市井百姓享受的是運氣和經驗的快感,而高手享受的是智力的較量。

這樣一個「雀神」AI ,除了打造一個無敵的麻將教練,還能打開全新的視角,讓咱們從數據算法的維度,去解析這項娛樂。

再也不像一個賭徒般依賴於運氣,而在腦力的光環之下,逐漸拋下那些隨機的不定的東西,探索出一套勝利的規律。

這不正是 AI 發展之路上,最迷人的一束光嗎?

相關文章
相關標籤/搜索