聯手世界冠軍，DeepMind用AlphaZero開發國際象棋新規則！網友：我只會馬走日

　　做者 | 蔣寶尚、賽文、青暮
安全

　　編輯 | 青暮dom

　　還記得《生活大爆炸》裏謝耳朵完虐舍友倫納德時玩的三維國際象棋嗎？異步

　　三維國際象棋或者空間國際象棋指任何一種在空間中（也就是不侷限於一個平面棋盤）的棋類遊戲。從20世紀早期就有這種象棋形式，最先的版本之一是「德國式空間國際象棋」，並在《星際迷航》系列中頻頻出現，後來也被用到了《生活大爆炸》中，是典型的理工男影視道具。ide

　　三維國際象棋或許難度過高，但若是隻是稍微改改二維的國際象棋規則，會帶來什麼不同的體驗呢？佈局

　　只是對於棋類遊戲而言，規則很是重要，每每牽一髮而動全身。若是改的很差，極可能會致使遊戲變得不公平，或者無趣。但要確認新規則的有效性，特別是對於國際象棋這類探索空間很是大的遊戲，須要大量的玩家玩大量的遊戲後，才能肯定新規則是否公平，新遊戲是否有趣。性能

　　有沒有更智能的方法呢？學習

　　固然有！這一次，DeepMind創始人Demis Hassabis聯手國際象棋世界冠軍Vladimir Kramnik，用AlphaZero玩出了新花樣。他們嘗試了多種不一樣的國際象棋變體，每一種變體都對經典國際象棋的規則作了些許改變，並用AlphaZero在新規則下進行自我對弈（self-play）。測試

　　Vladimir Kramnik是俄羅斯國際象棋特級大師，而且2000年至2007年間的國際象棋世界冠軍。優化

　　2017 年末，DeepMind 發表了 AlphaZero的論文，AlphaZero是能夠從零開始自學國際象棋、將棋和圍棋的系統，並最終在這三個棋類遊戲上都戰勝了世界最頂尖的程序。2018年末，DeepMind 對 AlphaZero 進行全面評估的論文發表在Science封面上。AlphaZero不須要任何內置的人類專業知識，只知道基本的遊戲規則，並從隨機遊戲開始訓練，就能實現世界最強。人工智能

　　因此，用AlphaZero來探索新規則下的國際象棋很是合適。

　　論文地址：https://arxiv.org/pdf/2009.04374.pdf

　　9種新型國際象棋

　　設計一套足夠吸引人、並且公平的遊戲規則並不是易事。現代國際象棋已經發展了幾個世紀，若是沒有相關經驗，盲目修改遊戲規則對整個棋局的影響是很難預測的。AlphaZero提供了一種替代性的計算手段來評估棋局的公平性。它能夠不斷從自身得到的經驗中學習，不須要任何人類監督，就能對任何規則改動進行評估進而獲得近乎最優的策略。

　　在本研究中，做者使用AlphaZero來創造性地探索和設計新的國際象棋規則。目前人們對費舍爾隨機棋（Fischer Random Chess）愈來愈感興趣，由於其涵蓋了經典國際象棋的大量開局理論、職業比賽中高比例的平局的特色，此外還須要雙方棋手在開戰前進行大量的練習。

　　做者比較了另外9種國際象棋的變體棋種，這些規則的變化能夠激發出不少新的戰略和戰術模式，同時還能使對局接近於原來的水平。經過使用AlphaZero學習每一個棋種變體的最佳策略，咱們就能夠清楚，若是採用這些變體，人類高手之間的對局會是什麼樣子。

　　從定性上看，這些棋種變體具備動態的特色。分析代表，相同棋子在不一樣棋種變體中的重要性不一樣，一些棋種變體比經典的國際象棋在總體棋局中表現出了更強的決勝性。該發現證實了現代國際象棋有更多規則變化的可能性。

　　規則一直是活的

　　流行的遊戲每每會隨着時間的推移而不斷髮展，現代國際象棋也不例外。最初的國際象棋遊戲起源於6世紀的印度，而後傳到波斯和穆斯林世界，後來傳到歐洲和全球。

　　在中世紀，歐洲國際象棋主要仍是以沙特蘭茲爲基礎，這是一種起源於薩珊帝國的早期變體，是以印度的Chaturanga爲基礎的，在這種變體中，皇后和主教的走法受到更多限制，棋子的威力也不如現代國際象棋，城堡當時還不存在。

　　除了將軍之外，還能夠經過暴露對方的國王來取勝，即吃掉對方全部其餘棋子。在沙特蘭茲中，僵局被認爲是勝利，而如今則被認爲是平局。

　　幾個世紀以來國際象棋的演變能夠看做是搜索空間複雜性的變化和遊戲最終結果的不肯定性變化，現代規則比較重視後者，認爲這是國際象棋遊戲體驗的重要因素。

　　人們對國際象棋進一步發展的興趣並無消退，特別是近來職業比賽中決定性的對局愈來愈少，選手們對於經典象棋的理論愈來愈依賴，再加上人們對象棋變幻無窮的玩法的好奇心和不斷探索的慾望，產生了許多國際象棋的變體。

　　這些變體涉及對棋盤、棋子位置或總體規則的改變，爲棋手提供了"一些在普通國際象棋中沒法體會到的微妙的有趣的東西"。目前最著名和最流行的國際象棋變體多是Chess960或費舍爾隨機棋，其中第一橫排的棋子是從960種隨機排列中選取的，這使得前期的理論準備變得不可行。

　　國際象棋和人工智能有着千絲萬縷的聯繫。圖靈（1953年）提出："能不能製造一臺機器來下棋，並逐漸改進它的下法，人們再從它的經驗中獲取技巧？"

　　雖然計算機國際象棋自20世紀50年代以來穩步發展，但圖靈問題的第二部分直到最近才徹底實現，即AlphaZero的誕生。它的出現又催生了新的項目，如Leela Chess Zero和對現有國際象棋引擎的改進。

　　CrazyAra採用了相關的方法來對Crazyhouse（也是一種國際象棋變體）進行了實驗，不過它須要從現有的人類遊戲數據進行預訓練。原始AlphaZero系統的一些特性被證實能夠泛化到Atari等領域，即便在沒有精確環境模擬器的狀況下也能保持其在國際象棋上的性能。AlphaZero還顯示出超越遊戲環境的能力，最近有研究代表能夠將該模型應用在量子動力學的全局優化中。

　　在任何遊戲上訓練AlphaZero時，並不須要事先的遊戲知識。所以，咱們能夠快速探索不一樣的規則集，並經過定量和定性的比較來肯定所產生的遊戲風格。

　　這篇文章中，做者以AlphaZero的視角來研究國際象棋規則的幾種假設性變體，進而推測出國際象棋界可能感興趣的棋種變體。做者用AlphaZero研究了被Vladimir Kramnik公開倡導的No-castling變體，其出如今了2019年12月19日的職業比賽中。

　　當時Luke McShane和Gawain Jones在倫敦國際象棋精英賽期間進行了有史以來第一場特級大師的No-castling比賽。此後，2020年1月在印度金奈舉辦了第一屆No-castling國際象棋比賽，出現了89%的決勝局。

　　規則變動示例

　　更改國際象棋的規則有多種方式，在這項工做中，做者限於考慮原子級變化，以使遊戲儘量接近經典的國際象棋。

　　在某些狀況下，須要對50步規則進行更改，以免出現遊戲沒法結束的狀況。這是爲了保留原始遊戲的對稱性和美學吸引力，同時但願經過新的開局、中局或尾局模式以及新穎的開局理論來發現動態的變體。

　　考慮到這一點，做者沒有考慮任何涉及棋盤自己、棋子數或棋子佈局的更改。表1列出了做者研究的規則變動。目前尚未進行嚴格的審查，將僵局視爲勝利在國際象棋界是一個懸而未決的問題。

　　表1中列出的每一個規則更改均可能以指望或不指望的方式影響遊戲。例如，考慮No-castling變體（不容許使用城堡）。不使用城堡的一個可能結果是，若是國王在比賽中暴露更多，而且須要時間來確保國王的安全，那將致使遊戲風格更傾向於進攻。

　　然而，因爲防護方也有反擊的機會，所以沒法輕易保護本身的國王可能使攻擊成爲糟糕的選擇。在經典象棋中，玩家一般在發動攻擊以前先進行防護。所以，這種改變可能致使比賽變得無趣，以及遊戲方式變得更加受限。

　　按照傳統，評估規則的惟一方法是讓大量的人類玩家長時間玩遊戲，直到積累了足夠的經驗和理解爲止。這不只是一個漫長的過程，並且還須要大量玩家的支持。藉助AlphaZero，能夠自動化這一過程，並在一天內模擬至關於幾十年的人類遊戲，從而使咱們可以經過計算機測試這些假設，並觀察遊戲中每一個已考慮變化的新興模式和理論。

　　表1：對國際象棋規則進行的9種更改的列表。

　　圖1用示例佈局對每一個變體進行了展現，涉及變體中出現的新戰略和戰術主題。

　　圖1：（a）No-castling中的一個例子：圖中展現了兩個國王都沒有當即得到安全，而且仍處於遊戲中場的典型佈局。

　　圖1：（b）No-castling(10)的一個例子：比賽趨向於進展較慢且更具策略性，以便之後開始出動城堡。在第11步中，首先是黑城堡出動，緊接着是白城堡出動。

　　圖1：（c）Pawn-one-square的一個例子：黑方剛將騎士移至a5。在經典象棋中，這可能違反直覺，由於有可能將卒子打到b4，對騎士捉雙。可是，這裏的卒子不能一口氣移動到那個格子，因此黑方的走法是合理的。

　　圖1：（d）Stalemate = win的一個示例：原來在經典象棋中平局的佈局，如今改成獲勝。

　　圖1：（e）Torpedo的一個例子：白方須要快速反擊，並使用torpedo移動：b4-b6來實現。黑方以Rh1作出迴應，白方以另外一個torpedo移動b6-b8 = Q越過皇后。

　　圖1：（f）Semi-torpedo的一個示例：將卒子從第3/6橫排快速前進的能力使黑方作出了這樣的選擇：d6-d4，從而造成強制戰術。

　　圖1：（g）Pawn-back的一個例子：在這裏，黑方利用新規則來吃白方的中央卒子（e5），同時經過卒子後移d5-d6，爲b7主教打開對角線。

　　圖1：（h）Pawn-sideways的一個例子：在犧牲了f2的騎士以後，黑方將卒子進行橫向移動f7-e7，用於戰術目的，對白方國王打開直線作準備，同時攻擊d6上的騎士。

　　圖1：（i）Self-capture的一個例子：白方城堡經過Rxh4吃掉本身的卒子，對黑方國王產生威脅。

　　定量評估

　　圖2展現了AlphaZero在不一樣時間控制條件下的自我對弈。因爲在相同條件下以肯定性方式肯定走棋，所以經過對每場比賽的前20步進行與MCTS訪問次數成正比的採樣來實現多樣性。

　　在全部變體中，平局的百分比隨着思考時間的延長而增長。這彷佛代表，從理論上講，這些象棋變體中可能會先肯定起始位置，就像經典象棋同樣，並且某些變體更難玩，涉及更多的計算和更豐富的模式。

　　圖2：（a）以每步1秒的速度，對每種國際象棋變體用AlphaZero自我對弈10,000局的結果。

　　圖2：（b）以每步1分鐘的速度，對每種國際象棋變體用AlphaZero自我對弈1000局的結果。

　　表2展現了白方在不一樣對局條件下的經驗性得分，即對於每一個國際象棋變體：模型訓練結束時的自我對弈、每步1秒對局和每步1分鐘對局的得分。每步1秒對局和每步1分鐘對局的多樣性是經過對每盤棋的前20個出棋按其MCTS訪問次數比例進行抽樣來實現的。

　　表2

　　圖3展現了平局率的對比。在兩種時間控制下，最具決勝性的變體是Torpedo、Semi-torpedo、No-castling和Stalemate=win，這四種變體也使白方擁有最大的先手優點。

　　圖3：（a）每步1秒對局的和棋率對比，對每一個變體使用AlphaZero自我對弈10,000局。

　　圖3：（b）每步1分鐘對局的和棋率對比，對每一個變體使用AlphaZero自我對弈1000局。

　　圖3：（c）每步1秒對局預期得分的對比，對每一個變體使用AlphaZero自我對弈10,000局。

　　圖3：（d）每步1分鐘對局的預期得分的對比，對每一個變體使用AlphaZero自我對弈1000局。

　　圖4代表，相同的開局位置能夠根據所考慮的變體提供不一樣程度的優點。圖中展現了AlphaZero做爲白方，進行1000局，每步大約耗時1秒，贏、輸、平局的次數，同時始終保持最佳走棋。

　　結果中的隨機性源於搜索過程當中MCTS線程的異步執行。所以，這些結果代表，對於如下每種開局，「主線」延續（「main line」 continuation）是多麼有利：荷蘭防護（Dutch Defence）、奇戈林防護（Chigorin Defence）、阿廖欣防護（Alekhine Defence）和王翼棄兵（King’s Gambit）。

　　定性評估

　　爲了評估本研究中所考慮的國際象棋變體之間的玩法差別，採起了將變體的定量評估與表明性對局的專家分析相結合的方法。雖然開局的多樣性增長了國際象棋變化的吸引力，但走法模式的類型等主觀問題不可能徹底定量地捕捉到。

　　所以，爲了對吸引力進行定性評估，做者借鑑了Vladimir Kramnik這位象棋特級大師的經驗。

　　另外，經過描述典型的模式，但願爲棋手提供洞察力，幫助他們判斷這些國際象棋變體的有趣之處。在分析中，使用了前面提到的1,000個1分鐘/步的對局以及200個1分鐘/步的對局，這些遊戲區別在於早期開局。

　　經過觀察1,000個1分鐘/步的對局，可以評估AlphaZero在每一個國際象棋變體中首選的打法風格。而經過200個1分鐘/步的對局，可以觀察到不一樣開場處理方式的變化模式，以及在每一個規則變化下，哪些開場方式更有但願贏得比賽。

　　如下是Kramnik對每一個變體進行定性分析的主要總結：

　　No-castling是一種使人興奮的變體，由於國王的安全每每會影響到雙方的安全，容許同時進行攻擊和反擊，並且當達到平等時，每每是動態的，而不是 "幹（dry） "的。擺放國王的多種方法及其時機，給開局的下法增長了複雜性。

　　Pawn one square的變體可能會吸引那些喜歡慢速戰略遊戲的玩家，由於在設置卒子的時候有可能進行換位。卒子的機動性下降，使其更難發動快速攻擊，使遊戲總體上不那麼具備決勝性。

　　Stalemate=win對開局和中局的影響不大，主要是影響某些終局的評價。所以對棋局來講，它並無增長局的決勝性，由於能夠不依靠殘局做爲平局而進行防護。所以，這種棋型變化對於繞開已知理論或使棋局在高水平上大幅度提升決勝性的做用不大。

　　Torpedo和Semi-torpedo都會讓棋局變得更有活力，更有決勝性，特別是Torpedo會致使棋局各階段出現變化。另外，因爲過路吃兵很難被阻止，因此它們變得很是重要。

　　Pawn-back能夠恢復對弱化格子的控制，並消除一些格子弱點。它還引入了打開對角線和格子佔用的其餘可能性。與直覺相反，儘管一般將棋子向後移動是一種防護性的動做，但鑑於能夠將棋子更早地推動，這能夠提供更具侵略性的選擇，由於始終能夠選擇將棋子向後移動以覆蓋弱化的格子。AlphaZero很是喜歡與對方進行法國防守，這特別有趣。

　　Pawn-sideways很是複雜，即便那些習慣於經典國際象棋的棋手，對此模式有時也是很是 "陌生 "。卒子的結構多變，不可能創造出永久性的卒子弱點。所以，這種棋型變體要求咱們從新思考如何處理任何給定的局面，處理方式會變得很是具體，而且會依靠深刻的計算。另外，重組佈陣須要時間，棋手須要利用這些時間來創造出其餘類型的優點。AlphaZero在這個變體中的許多對局都是至關有戰術性的，有些還涉及到在經典規則下沒法實現的新穎戰術。

　　Self-capture至關有趣，由於它會選擇犧牲本身的棋子。Self-capture能夠出如今對局的各個階段，但並不是每一盤棋都涉及。但它們確實在至關大比例的對局中出現，並且在一些對局中它們會出現更多。例如，Self-capture招數能夠用來在進攻中爲棋子開檔和格子；經過犧牲卒鏈中的一個卒來打開封等等。

　　總結

　　整個論文的工做集中於：訓練了AlphaZero模型來評估國際象棋的棋局。在這些規則變化下訓練AlphaZero模型能夠幫助咱們在幾個小時內有效地模擬「幾十年」人類遊戲，並能回答問題：在國際象棋變體中，既定理論狀況下（developed theory），這盤棋可能會是什麼樣子？此外，相似的方法能夠用於其餘類型遊戲中的自動平衡遊戲機制。

　　爲了評估規則變化的後果，做者結合訓練模型和自我對弈的定量分析，進行了深刻的定性分析，在分析中發現了，許多經典國際象棋規則不可能出現的新模式和想法。這代表，在本研究考慮的棋譜中，有幾個棋譜變體甚至比經典棋譜更具決勝性：Torpedo、Semi-torpedo、No-castling和Stalemate=win。

　　另外，還量化了多種開局玩法，由於決勝性變體可能須要更精確的下法，每步棋的可信選擇更少，因此，總體開局多樣性和決勝性之間存在負相關。對於每一種國際象棋變體，做者還根據10000場AlphaZero對局的結果估計了每個棋子的「物質價值」，以便令人類棋手更容易理解遊戲。

　　在AI科技評論今天推文第三條「《柏拉圖與技術呆子》：探討人類與技術的創造性夥伴關係」留言區留言，談一談你對本書的相關見解、期待等。

　　AI 科技評論將會在留言區選出5名讀者，每人送出《柏拉圖與技術呆子》一本。

　　活動規則：

　　1. 在留言區留言，留言點贊最高且留言質量較高的前 5 位讀者將得到贈書。得到贈書的讀者請聯繫 AI 科技評論客服（aitechreview）。

　　2. 留言內容和留言質量會有篩選，例如「選我上去」等內容將不會被篩選，亦不會中獎。

　　3. 本活動時間爲2020年9月11日 - 2020年9月18日（23:00），活動推送內僅容許中獎一次。

　　點