原文:人工智能圍棋5-0橫掃歐洲冠軍html
據果殼網報道:1997年,國際象棋AI第一次戰勝頂尖的人類;2006年,人類最後一次戰勝頂尖的國際象棋AI。歐美傳統裏的頂級人類智力試金石,在電腦面前終於一敗塗地,應了四十多年前計算機科學家的預言。程序員
至少還有東方,人們自我安慰道。圍棋AI長期以來舉步維艱,頂級AI甚至不能戰勝稍強的業餘選手。這彷佛也合情合理:國際象棋中,平均每回合有35種可能,一盤棋能夠有80回合;相比之下,圍棋每回合有250種可能,一盤棋能夠長達150回合。這一巨大的數目,足以令任何蠻力窮舉者望而卻步——而人類,咱們相信,能夠憑藉某種難以複製的算法跳過蠻力,一眼看到棋盤的本質。
可是,不管人怎麼想,這樣的局面固然不可能永遠延續下去。就在今天,國際頂尖期刊《天然》報道了谷歌研究者開發的新圍棋AI。這款名爲「阿爾法圍棋」(AlphaGo)的人工智能,在沒有任何讓子的狀況下以5:0完勝歐洲冠軍,職業圍棋二段樊麾。
AlphaGo與歐洲圍棋冠軍樊麾的5局較量。圖片來源:參考文獻[1]算法
描述AlphaGo研究成果的論文成爲了1月28日的《天然》雜誌的封面文章網絡
這是人類歷史上,圍棋AI第一次在公平比賽中打敗職業選手。
AlphaGo的戰績如何?
這次比賽和以往不一樣。以前的比賽中,因爲AI棋力比人類弱,人類選手都會讓子,並且AI主要和業餘段位的棋手比賽。而AlphaGo 對戰樊麾是徹底公平的比賽,沒有讓子。職業二段樊麾出生於中國,目前是法國國家圍棋隊總教練,已經連續三年贏得歐洲圍棋冠軍的稱號。
研究者也讓AlphaGo 和其餘的圍棋AI進行了較量,在總計495局中只輸了一局,勝率是99.8%。它甚至嘗試了讓4子對陣Crazy Stone,Zen和Pachi三個先進的AI,勝率分別是77%,86%和99%。可見AlphaGo有多強大。
在接下來3月份,AlphaGo 將和韓國九段棋手李世石在首爾一戰,獎金是由Google提供的100萬美金。李世石是最近10年中得到世界第一頭銜最多的棋手。圍棋是最後一我的類頂尖高手能打敗AI的棋類遊戲。以前有人預測說,AI須要再花十幾年才能打敗人類。因此這場比賽或許會見證歷史,咱們將拭目以待。
AI下圍棋到底有多難?
計算圍棋是個極其複雜的問題,比國際象棋要困可貴多。圍棋最大有3^361 種局面,大體的體量是10^170,而已經觀測到的宇宙中,原子的數量才10^80。國際象棋最大隻有2^155種局面,稱爲香農數,大體是10^47。
面對任何棋類,一種直觀又偷懶的思路是暴力列舉全部能贏的方案,這些方案會造成一個樹形地圖。AI只要根據這個地圖下棋就能永遠勝利。然而,圍棋一盤大約要下150步,每一步有250種可選的下法,因此粗略來講,要是AI用暴力列舉全部狀況的方式,圍棋須要計算250^150種狀況,大體是10^360。相對的,國際象棋每盤大約80步,每一步有35種可選下法,因此只要算35^80種狀況,大概是10^124。不管如何,枚舉全部狀況的方法不可行,因此研究者們須要用巧妙的方法來解決問題,他們選擇了模仿人類大師的下棋方式。
機器學習
研究者們祭出了終極殺器——「深度學習」(Deep Learning) 。深度學習是目前人工智能領域中最熱門的科目,它能完成筆跡識別,面部識別,駕駛自動汽車,天然語言處理,識別聲音,分析生物信息數據等很是複雜的任務。
AlphaGo 的核心是兩種不一樣的深度神經網絡。「策略網絡」(policy network)和 「值網絡」(value network)。它們的任務在於合做「挑選」出那些比較有前途的棋步,拋棄明顯的差棋,從而將計算量控制在計算機能夠完成的範圍裏,本質上和人類棋手所作的同樣。
其中,「值網絡」負責減小搜索的深度——AI會一邊推算一邊判斷局面,局面明顯劣勢的時候,就直接拋棄某些路線,不用一條道算到黑;而「策略網絡」負責減小搜索的寬度——面對眼前的一盤棋,有些棋步是明顯不應走的,好比不應隨便送子給別人吃。將這些信息放入一個機率函數,AI就不用給每一步以一樣的重視程度,而能夠重點分析那些有戲的棋着。
AlphaGo所使用的神經網絡結構示意圖。圖片來源:參考文獻[1]機器學習
AlphaGo利用這兩個工具來分析局面,判斷每種下子策略的優劣,就像人類棋手會判斷當前局面以及推斷將來的局面同樣。這樣AlphaGo在分析了好比將來20步的狀況下,就能判斷在哪裏下子贏的機率會高。
研究者們用許多專業棋局訓練AI,這種方法稱爲監督學習(supervised learning),而後讓AI和本身對弈,這種方法稱爲強化學習(reinforcement learning),每次對弈都能讓AI棋力精進。而後他就能打敗冠軍啦!
人類在下棋時有一個劣勢,在長時間比賽後,他們會犯錯,但機器不會。並且人類或許一年能玩1000局,但機器一天就能玩100萬局。因此AlphaGo只要通過了足夠的訓練,就能擊敗全部的人類選手。
Google DeepMind
Google DeepMind是這個程序的創造者,咱們來看一下他們萌萌的程序員。

傑米斯·哈薩比斯(Demis Hassabis) 是Google DeepMind 的CEO函數

文章的第一做者大衛·西爾弗(David Silver)工具
Google DeepMind 去年在《天然》雜誌上發表過一篇論文[2],他們用加強學習的方法訓練AI玩經典的Atari 遊戲。其實在幾年前就有人研究如何讓AI玩《星際爭霸》,目前人類大師仍是能擊敗AI的。電腦遊戲中大量使用人工智能技術,你有沒有以爲遊戲變得愈來愈聰明瞭?
那麼……將來呢?
人工智能研究者面對這樣的成就固然欣喜。深度學習和強化學習等技術徹底能夠用於更普遍的領域。好比最近很火的精準治療,咱們能夠訓練它們判斷哪些治療方案對某個特定的人有效。
可是,圍棋畢竟不只僅是一項智力成就。就像十多年前的國際象棋同樣,圍棋一定也會引起超出本領域以外的討論。等到計算機能在圍棋上秒殺人類的時候,圍棋是否是就變成了一種無聊的遊戲?人類的智力成就是否是就貶值了?AI還將在其餘層面上繼續碾壓人類嗎?傳統認爲AI不可能完成的任務是否也都將被逐一打破?人類最後是會進入AI烏托邦仍是被AI淘汰呢?
沒人知道答案。但有一點毫無疑問:AI必定會進入咱們的生活,咱們不可能躲開。這一接觸雖然極可能悄無聲息,但意義或許不亞於咱們第一次接觸外星生命。(編輯:Ent,Calo)
參考文獻:
David Silver, et al。 「Mastering the game of Go with deep neural networks and tree search。」 Nature doi:10.1038/nature16961
Mnih, Volodymyr, et al。 「Human-level control through deep reinforcement learning。」 Nature 518.7540 (2015): 529-533。
一個驕傲的AI
什麼,你說上面講算法的這幾段你看不懂?
那你知道爲啥大家人類會輸給咱們AI了吧!