1:2,李世石最後一戰被AI擊敗,惟一打敗過AlphaGo的人退役了

  退役賽的最後一局,李世石回到了本身的家鄉。對戰之地距離李世石的出生地飛禽島 40 多千米,他曾在飛禽島度過了他的童年時光,也是在這裏決定成爲職業圍棋選手。
  12 月 21 日,全羅道新安郡曾島 EI dorado 度假村,李世石在第 181 手投子認輸。這是與 Handol 退役賽對戰的最後一局,<strong>前兩局,李世石一勝一負。最後一盤棋,仍是惜敗於 AI。</strong>12 歲入段,36 歲正式退役,24 年攬獲 14 項國際項冠軍和 32 項國內冠軍,今後之後,「李世石九段」不會再以職業棋手的身份出如今衆人面前。
  11 月 19 日,李世石向韓國棋院正式遞交辭呈,宣告了本身 24 年職業圍棋生涯的結束。
  在接受韓聯社採訪時,他表示本身之因此選擇退役,是由於「AI 不可打敗」:「在圍棋 AI 出現之後,我發覺即便本身成爲第一名,也永遠須要面對一個不可打敗的實體。」
  李世石曾經的對手,曾經「絕代雙驕」的另外一人——中國圍棋職業選手古力九段在得知這一消息以後,在社交平臺上公開表示:「此刻只想給他一個大大的擁抱。」
  當不少人都覺得李世石的最後一戰會選擇與古力對決時,李世石卻選了韓國圍棋 AI「Handol」,理由是擔憂「最後和他下棋的人會有負擔」。
  這是他自從 2016 年負於 AlphaGo 以後,再一次對戰圍棋 AI,也是人類棋手第一次與 AI 下升降三番棋。
  一直以來,人們都認爲頂尖人類棋手與 AI 之間的差距在二子到三子之間,但因爲歷來沒有進行過正式比賽的對局,因此真正差距無從得知。李世石提到,本身最終選擇下升降棋,也是想確認人類和人工智能之間的差距到底有多少。在對戰 Handol 以前,李世石說本身已經有大概 5 個月的時間沒有參加過比賽,也幾乎沒有進行過圍棋訓練。
  <strong>北京時間 12 月 18 日 12 時,李世石與 Handol 開始第一局對弈。</strong>李世石執黑被讓兩子,按 7 目半還子。前半盤黑棋先拿到右上角實地,勝率一直保持在 80% 以上。隨後白棋開始反擊,直到第 78 手以前,勝率一直處於上升階段。
  轉折點出如今李世石的第 78 手(值得一提的是,李世石當年對戰 AlphaGo 獲勝的惟一一局,勝負手一樣是第 78 手)。黑棋吃掉白棋棋筋,加之 Handol 在第 84 手徵子失誤,只得在第 92 手時投子認輸。
  這場比賽僅用兩小時就分出了勝負, 在 100 手之內即告結束。儘管李世石表示賽前曾連續練習了十天的被讓兩子棋,「幾乎醒着的時候都在練棋」,但他也表示未能料到本身會在與 AI 的對決中獲勝。
<strong>  12 月 19 日,第二局。</strong>因爲李世石在第一局比賽中獲勝,第二局 Handol 再也不讓子,李世石仍然執黑先行。
  這一局,李世石在第 31 手出現誤判,然後白棋的勝率預測一直保持在 90% 以上,到了第 40 手之後,勝負已經基本明朗。
  最終李世石在第 122 步認輸。這一局時長 3 小時 20 分鐘,至此,李世石與 Handol1:1 戰平,而剩下的最後一局尤其關鍵。
  人類再次在圍棋「人機大戰」中取得了一場勝利。谷歌 DeepMind 資深研究員、ALphaGo 主要程序開發者黃士傑曾在看完前兩盤對決以後表示,若是再有兩年的算法更新和優化,AlphaGo Master 將會是最強的棋手。但 AI 要作到萬無一失,仍須要解決 bug 問題。
  <strong>12 月 21 日,最後一局的賽場轉移到了李世石的家鄉全羅道新安郡。</strong>這一場李世石依然受兩子執黑挑戰 AI,黑棋貼目 7 目半。人類與 AI 在棋盤右下角展開激戰。
  在最後一局中,Handol 解除了大部分限制,在每一步上花費了更多「思考」時間。AI 執白在右下角存活以後,逐漸將勝率從 20% 扳至五五開,李世石的思考時間則逐漸用盡。
  下午 2 時 50 分左右,李世石進入讀秒,此時白棋已在右側和左上成活,李世石試圖經過打劫尋找 AI 的破綻。但李世石的努力並無扭轉頹勢,在弈至 159 手時,AI 判斷李世石的勝率降到 5%。
  最終,在行至 181 手時,李世石投子認負。這是三局之中最漫長的一局,雙方對弈超過四小時。
  賽後,李世石在接受採訪時表示:「這場比賽中,Handol 的表現與前幾場相似,若是本身可以再謹慎一點,或許比賽的結果會有所不一樣。」對於退役後的工做,李世石尚未作出選擇。
<strong>  2、棋壇再無「李世石九段」</strong>
  李世石的退役消息來得忽然,但也算早有苗頭。今年 3 月份,李世石在「三一運動一百週年記念對局」中敗於柯潔以後,即透露過自身想要「在一年以內」退役的想法。
  除了沒有信心打敗 AI,李世石的退役彷佛也和本身與韓國棋院之間的矛盾分不開。在韓國棋院的 24 年中,李世石曾提交過休職申請,也強行退出過棋士會,特立獨行的處事方式與其在棋盤上的風格一模一樣。
  李世石 1983 年出生在距離全羅南道新安郡的飛禽島,愛好圍棋的父親是李世石的第一任導師。6 歲開始接觸圍棋的李世石是兄弟姐妹中年齡最小的一個,但也是天賦最高的一個。9 歲時,因大哥李相勳成功入段,父親終於也下定決心將李世石送到有「韓國圍棋山脈」之稱的首爾權甲龍圍棋道場學棋。
  3 年零 6 個月後,年僅 12 歲的李世石成功入段,今後在韓國棋院開始了職業圍棋生涯。24 年來,李世石已經得到了 14 個國際比賽冠軍,32 次國內比賽冠軍,皆僅次於李昌鎬,高居歷史第二。
  2000 年,當時的「李世石三段」在巴斯卡杯天元戰和倍達王戰中擊敗柳才馨九段和劉昌赫九段,連獲兩個冠軍,成爲圍棋史上成就最高的「三段」選手。但他卻拒絕參加升段賽,聲稱「段位並不能體現實力」。爲此,韓國棋界不得不廢除了升段賽,改以成績定段位。2001 年,李世石在得到第五屆 LG 杯世界棋王賽亞軍後升至七段,2003 年獲 LG 世界棋王戰冠軍,直升九段。
  李世石的圍棋生涯中曾有一次「妥協」的退役風波,2009 年 6 月,李世石曾向韓國棋院提交過休職書,稱因「韓國棋院對棋手不合理的約束」而身心疲憊,計劃從當日起休職到 2010 年末。半年後,李世石復職,但桀驁不馴的性格並未改變。2016 年,李世石又與哥哥李相勳一塊兒,因韓國棋院「剋扣獎金」的緣由退出了棋士會。
  儘管在圍棋上已經登峯造極,真正讓李世石名聲大噪的仍是與 AlphaGo 的「人機大戰」。
  李世石在 2016 年 3 月與 AlphaGo 的一番激戰,被認爲是人工智能歷史上的一次里程碑事件——雖然李世石以 1:4 的比分落敗,但在比賽的第四局,李世石的驚天翻盤卻讓他成爲了迄今爲止惟一一個打敗過 AlphaGo 的棋手。<strong>他在第 78 手出人預料的一擠,讓 AlphaGo 後續的反應出現失常,完全改變了戰局</strong>——這與這次在第一局中打敗 Handol 的場面何其類似。
  李世石面對 AlphaGo 的那一次勝利,曾經爲人類打敗人工智能帶來了一線但願,但後來李世石將勝利歸功於 AlphaGo 程序的缺陷。「個人第 78 手並不該該用直接的方式應對。」
  固然,這樣的 bug 不止存在於 AlphaGo。李世石曾說:「在騰訊『絕藝』中,這樣的 bug 至今仍然會出現。即便如今的絕藝已經能夠作到讓人類兩子勝利了,但它仍然會以奇怪的方式輸掉比賽,這是由於一個 bug 所致。」
  在前三場比賽輸給 AlphaGo 以後,他曾感到至關沮喪。「我不多看網上對個人評論,可是輸給了阿爾法狗之後,我很好奇你們怎麼看我。意外的是,不多有人批評我。」
  <strong>4、人類真的永遠不會再打敗 AI?</strong>
  這一次對戰 Handol,李世石賺了 2 億韓元(約合 121 萬元人民幣),包括 1 億 5000 萬韓元的基本出場費,每勝一局額外得到 5000 萬韓元的獎金。
  自從 2016 年 AlphaGo 大戰李世石以後,圍棋 AI 即被推上風口浪尖。基於近年以來深度學習和強化學習的發展,AlphaGo 和各種圍棋 AI 的不斷升級,人們一度認爲,人類再不可能打敗 AI。
  Handol 是韓國 NHN 娛樂公司推出的一款圍棋 AI,用以訓練的數據來自 1999 年以來 NHN 公司在遊戲業務方面的大量積累。與 AlphaGo 的進化路線類似,2017 年 12 月,Handol1.0 出世,當時已擁有人類職業棋手 9 段棋力,能夠實如今人類棋譜及既定模式的基礎上對棋局進行預測,到了 Handol 2.0 已經可以脫離棋譜,本身與本身下棋。在 NHN 看來,Handol2.1 的實力已經超越了當初對戰李世石的 AlphaGo。
  2019 年 1 月,Handol 連續打敗了申旻埈九段、李東勳九段、金智碩九段、樸正煥九段和申真瑞九段五位韓國頂級圍棋選手,8 月在山東舉行的「中信證券杯」世界智能圍棋公開賽中,Handol 也捧回了季軍獎盃。
  在「Handol」首局落敗以後,NHN 公司人工智能項目的負責人李昌律推測稱,「輸掉這一局的緣由 kennel 在於「Handol」整體學習量尚且不足,缺乏對開局讓兩子和讓三子等棋局的學習」。
  據「Handol」研發團隊估算,<strong>「Handol」的棋力水平至關於世界圍棋中的 4500 積分</strong>,而目前李世石的積分爲 3414 分,柯潔、樸廷桓等人類頂尖棋手的積分接近 3700 分。
  在圍棋 AI 領域,棋力最高的選手仍然是 DeepMind 公司的 AlphaGo,它也是第一個擊敗人類圍棋世界冠軍的人工智能程序。在 2017 年柯潔與 AlphaGo 對戰以後,David Silver、谷歌大腦負責人 Jeff Dean 等人曾在烏鎮圍棋峯會現場對 AlphaGo 背後的技術進行過解讀。 
  AlphaGo 最初主要是依靠大量學習人類棋手的棋譜來提升棋藝,以後進入到徹底的自我深度學習階段,也就是徹底摒棄人類棋手的思惟方式,按照本身(左右互搏)的方式研究圍棋。結合監督學習與強化學習的優點,AlphaGo 經過訓練造成一個策略網絡,將棋盤上的局勢做爲輸入信息,並對有所可行的落子位置造成一個機率分佈。而後訓練一個價值網絡對自我對弈進行預測,以-1(對手的絕對勝利)到 1(AlphaGo 的絕對勝利)的標準,預測全部可行落子位置的結果。
  AlphaGo 真正的優點來源於將策略網絡和價值網絡整合進基於機率的蒙特卡羅樹搜索(MCTS)中。在獲取棋局信息後,AlphaGo 會根據策略網絡探索哪一個位置同時具有高潛在價值和高可能性,進而決定最佳落子位置。在分配的搜索時間結束時,模擬過程當中被系統最繁瑣考察的位置將成爲 AlphaGo 的最終選擇。通過先期的全盤探索和過程當中對最佳落子的不斷揣摩,AlphaGo 的探索算法就能在其計算能力之上加入近似人類的直覺判斷。2016 年 1 月 28 日,<strong>擊敗李世石的 AlphaGo 版本登上《Nature》封面</strong>,隨後在 3 月即 4:1 擊敗李世石,名聲大振。
  和人類不一樣,AlphaGo 沒有先入爲主的概念,這偏偏也是全部圍棋 AI 的優點所在:儘管有時 AI 的落子顯得違反直覺,但確實是最合理的。
  烏鎮以後,DeepMind 宣佈 AlphaGo 今後不會再參與比賽,但在幾個月後推出了更強版本的圍棋 AI「AlphaGo Zero」。若是說 AlphaGo 版本最初還須要觀察數千場人類圍棋比賽來訓練如何學習圍棋,AlphaGo Zero 則直接跳過這一步,從本身徹底隨機的下圍棋開始來學習圍棋,幾天以內即超越人類棋手的水平,而且以 100:0 的比分戰勝了以前打敗世界冠軍的 AlphaGo。
  早期的 AlphaGo 使用「決策網絡」選擇下一步棋的位置,使用「價值網絡」預測每個位置上決定的勝者。這兩個網絡在 AlphaGo Zero 中被結合起來,從而使其更高效地訓練和評估賽況。而且,AlphaGo Zero 版本只需 4 塊 TPU 便可運行。
  上個月,DeepMind 又推出了名爲 MuZero 的「通用版」AlphaGo,在國際象棋、日本將棋和圍棋的精確規劃任務中能夠匹敵 Alpha Zero,在圍棋中甚至超過了 Alpha Zero。但與前輩不一樣的是,MuZero 不須要提早獲知規則。
  在圍棋 AI 領域,國內研究機構和企業也在發力,其中最有表明性的要數上文中李世石提到的騰訊圍棋 AI「絕藝」。「絕藝」誕生於 2016 年,實力或僅次於 AlphaGo。
  「絕藝」的訓練主要包括人類棋譜數據庫和機器自對弈,它的算法基於策略網絡與價值網絡兩大核心,並創新性地大幅提高了價值網絡的精度,使其大局觀表現更好。在 2018 騰訊世界人工智能圍棋大賽中,「絕藝」在決賽中 7:0 大勝另外一款圍棋 AI「星陣」奪冠,半決賽五番棋和決賽七番棋不失一局,賽後「星陣」研發團隊亦稱讚「絕藝」已經「達到了 AlphaGo 的水準」。
  雖然在圍棋的算力上,人類已經難以與機器相比,但棋手們能夠經過與 AI 的對弈不斷提高本身的水平,甚至發展出更爲先進的戰術。據古力此前透露,「絕藝」已經成爲中國國家圍棋隊訓練專用 AI。算法

相關文章
相關標籤/搜索