AI聖經《深度學習》做者斬獲2018年圖靈獎,100 萬獎勵!

2019年3月27日 ——ACM宣佈,深度學習之父Yoshua Bengio, Yann LeCun, 以及Geoffrey Hinton得到了2018年的圖靈獎,被稱爲「計算機領域的諾貝爾獎」。其中Yoshua Bengio是《深度學習》做者之一。

今天,深度學習已經成爲了人工智能技術領域最重要的技術之一。在最近數年中,計算機視覺、語音識別、天然語言處理和機器人取得的爆炸性進展都離不開深度學習。

三人在人工智能領域的成就數不勝數,可是ACM依然列數了三位大咖最值得被記住的成就,咱們也在此從新回顧他們的故事,簡直就是一部人工智能/深度學習的發家史。

圖靈獎(Turing Award),全稱「A.M. 圖靈獎(A.M Turing Award)」 ,由美國計算機協會(ACM)於1966年設立,專門獎勵那些對計算機事業做出重要貢獻的我的 。其名稱取自計算機科學的先驅、英國科學家艾倫·麥席森·圖靈(Alan M. Turing) 。它是計算機界最負盛名、最崇高的一個獎項,有「計算機界的諾貝爾獎」之稱 。

圖靈獎設獎初期爲20萬美圓,1989年起增到25萬美圓,獎金一般由計算機界的一些大企業提供(經過與ACM簽定協議)。目前圖靈獎由Google公司贊助,獎金爲1,000,000美圓。

01 三位做者在深度學習領域貢獻

《深度學習》做者

Yoshua Bengio

序列的機率模型:在 20 世紀 90 年代,Bengio 將神經網絡與序列的機率模型相結合,例如隱馬爾可夫模型。這些想法被歸入 AT&T / NCR 用於閱讀手寫支票中,被認爲是 20 世紀 90 年代神經網絡研究的巔峯之做。現代深度學習語音識別系統也是這些概念的擴展。

高維詞彙嵌入和關注:2000 年,Bengio 撰寫了具備里程碑意義的論文「A Neural Probabilistic Language Model」,它引入了高維詞向量做爲詞義的表示。Bengio 的看法對天然語言處理任務產生了巨大而持久的影響,包括語言翻譯、問答和視覺問答。他的團隊還引入了注意力機制,這種機制促使了機器翻譯的突破,並構成了深度學習的序列處理的關鍵組成部分。

生成性對抗網絡:自 2010 年以來,Bengio 關於生成性深度學習的論文,特別是與 Ian Goodfellow 共同開發的生成性對抗網絡(GAN),引起了計算機視覺和計算機圖形學的革命。

Geoffrey Hinton

反向傳播:在 1986 年與 David Rumelhart 和 Ronald Williams 共同撰寫的 「Learning Internal Representations by Error Propagation」 一文中,Hinton 證實了反向傳播算法容許神經網絡發現本身的數據內部表示,這使得使用神經網絡成爲可能網絡解決之前被認爲超出其範圍的問題。現在,反向傳播算法是大多數神經網絡的標準。

玻爾茲曼機(Boltzmann Machines):1983 年,Hinton 與 Terrence Sejnowski 一塊兒發明了玻爾茲曼機,這是第一個可以學習不屬於輸入或輸出的神經元內部表示的神經網絡之一。

卷積神經網絡的改進:2012 年,Hinton 和他的學生 Alex Krizhevsky 以及 Ilya Sutskever 經過 Rectified Linear Neurons 和 Dropout Regularization 改進了卷積神經網絡,並在著名的 ImageNet 評測中將對象識別的錯誤率減半,在計算機視覺領域掀起一場革命。

Yann LeCun

卷積神經網絡:在 20 世紀 80 年代,LeCun 研發了卷積神經網絡,現已成爲該領域的基本理論基礎。其讓深度學習更有效。在 20 世紀 80 年代後期,多倫多大學和貝爾實驗室工做期間,LeCun 是第一個在手寫數字圖像上訓練卷積神經網絡系統的人。現在,卷積神經網絡是計算機視覺以及語音識別、語音合成、圖像合成和天然語言處理的行業標準。它們用於各類應用,包括自動駕駛、醫學圖像分析、語音激活助手和信息過濾。

改進反向傳播算法:LeCun 提出了一個早期的反向傳播算法 backprop,並根據變分原理對其進行了簡潔的推導。他的工做讓加快了反向傳播算,包括描述兩種加速學習時間的簡單方法。

拓寬神經網絡的視野:LeCun 還將神經網絡做爲能夠完成更爲普遍任務的計算模型,其早期工做現已成爲 AI 的基礎概念。例如,在圖像識別領域,他研究瞭如何在神經網絡中學習分層特徵表示,這個理念如今一般用於許多識別任務中。與 LéonBottou 一塊兒,他還提出了學習系統能夠構建爲複雜的模塊網絡,其中經過自動區分來執行反向傳播,目前在每一個現代深度學習軟件中獲得使用。他們還提出了能夠操做結構化數據的深度學習架構,例如圖形。算法

02 《深度學習》講了什麼?

深度學習這個術語自2006 年被正式提出後,在最近10 年獲得了巨大發展。它令人工智能 (AI) 產生了革命性的突破,讓咱們切實地領略到人工智能給人類生活帶來改變的潛力。2016 年12 月,MIT 出版社出版了Ian Goodfellow、Yoshua Bengio 和Aaron Courville 三位學者撰 寫的《Deep Learning》一書。三位做者一直耕耘於機器學習領域的前沿,引領了深度學習的發展潮流,是深度學習衆多方法的主要貢獻者。該書正應其時,一經出版就風靡全球。



該書包括3 個部分,第1 部分介紹基本的數學工具和機器學習的概念,它們是深度學習 的預備知識。第2 部分系統深刻地講解現今已成熟的深度學習方法和技術。第3 部分討論某 些具備前瞻性的方向和想法,它們被公認爲是深度學習將來的研究重點。所以,該書適用於 不一樣層次的讀者。我本人在閱讀該書時受到啓發良多,大有裨益,並採用該書做爲教材在北 京大學講授深度學習課程。


這是一本涵蓋深度學習技術細節的教科書,它告訴咱們深度學習集技術、科學與藝術於 一體,牽涉統計、優化、矩陣、算法、編程、分佈式計算等多個領域。書中同時也蘊含了做者 對深度學習的理解和思考,到處閃爍着深入的思想,耐人回味。第1 章關於深度學習的思想、 歷史發展等論述尤其透徹而精闢。


做者在書中寫到: 「人工智能的真正挑戰在於解決那些對人來講很容易執行、但很難形式 化描述的任務,好比識別人們所說的話或圖像中的臉。對於這些問題,咱們人類每每能夠憑 直覺輕易地解決」。爲了應對這些挑戰,他們提出讓計算機從經驗中學習,並根據層次化的概 念體系來理解世界,而每一個概念經過與某些相對簡單的概念之間的關係來定義。由此,做者 給出了深度學習的定義:「層次化的概念讓計算機構建較簡單的概念來學習複雜概念。若是繪 製出表示這些概念如何創建在彼此之上的一幅圖,咱們將獲得一張`深'(層次不少) 的圖。由 此,咱們稱這種方法爲AI 深度學習(deep learning)」。


《深度學習》中文版從引進版權到正式出版歷經三年,中文版的推出填補了目前國內缺少深度學習綜合性教科書的空白。該書從淺入深介紹了基礎數學知識、機器學習經驗以及現階段深度學習的理論和發展,它能幫助人工智能技術愛好者和從業人員在三位專家學者的思惟帶領下全方位瞭解深度學習。該書一經推出變橫掃暢銷榜。


這是一本教科書,又不僅是一本教科書,任何對深度學習感興趣的讀者,閱讀本書都會受益。除了學習機器學習的大學生,沒有機器學習或統計背景的軟件工程師也能夠經過本書快速補充相關知識,並在他們的產品或平臺中使用。


本書最大的一個特色是介紹深度學習算法的本質,脫離具體代碼實現給出算法背後的邏輯,不寫代碼的人也徹底能夠看。本書的另外一個特色是,爲了方便讀者閱讀,做者特別繪製了本書的內容組織結構圖,指出了全書20章內容之間的相關關係,如圖所示。讀者能夠根據本身的背景或須要,隨意挑選閱讀。


圖1 《深度學習》中文版內容組織結構圖。從一章到另外一章的箭頭表示前一章是理解後一章的必備內容。


03 《深度學習》的歷史趨勢

經過歷史背景瞭解深度學習是最簡單的方式。這裏咱們僅指出深度學習的幾個關鍵趨勢,而不是提供其詳細的歷史:
  • 深度學習有着悠久而豐富的歷史,但隨着許多不一樣哲學觀點的漸漸消逝,與之對應的名稱也漸漸塵封。
  • 隨着可用的訓練數據量不斷增長,深度學習變得更加有用。
  • 隨着時間的推移,針對深度學習的計算機軟硬件基礎設施都有所改善,深度學習模型的規模也隨之增加。
  • 隨着時間的推移,深度學習已經解決日益複雜的應用,而且精度不斷提升。

神經網絡的衆多名稱和命運變遷編程

事實上,深度學習的歷史能夠追溯到20世紀40年代。深度學習看似是一個全新的領域,只不過由於在目前流行的前幾年它仍是相對冷門的,同時也由於它被賦予了許多不一樣的名稱(其中大部分已經再也不使用),最近才成爲衆所周知的「深度學習」。這個領域已經更換了不少名稱,它反映了不一樣的研究人員和不一樣觀點的影響。


迄今爲止深度學習已經經歷了3次發展浪潮:20世紀40年代到60年代,深度學習的雛形出如今 控制論(cybernetics)中;20世紀 80年代到 90年代,深度學習表現 爲聯結主義(connectionism);直到 2006 年,才真正以深度學習之名復興。圖1給出了定量的展現。


咱們今天知道的一些最先的學習算法,旨在模擬生物學習的計算模型,即大腦怎樣學習或爲何能學習的模型。其結果是深度學習以 人工神經網絡(artificial neural network,ANN)之名而淡去。彼時,深度學習模型被認爲是受生物大腦(不管人類大腦或其餘動物的大腦)所啓發而設計出來的系統。儘管有些機器學習的神經網絡有時被用來理解大腦功能(Hinton and Shallice,1991),但它們通常都沒有設計成生物功能的真實模型。深度學習的神經觀點受兩個主要思想啓發:一個想法是,大腦做爲例子證實智能行爲是可能的,所以,概念上,創建智能的直接途徑是逆向大腦背後的計算原理,並複製其功能;另外一種見解是,理解大腦和人類智能背後的原理也很是有趣,所以機器學習模型除了解決工程應用的能力,若是能讓人類對這些基本的科學問題有進一步的認識,也將會頗有用。
圖2 根據Google圖書中短語「控制論」「聯結主義」或「神經網絡」頻率衡量的人工神經網絡研究的歷史浪潮(圖中展現了3次浪潮的前兩次,第3次最近纔出現)。第1次浪潮開始於20世紀40年代到20世紀60年代的控制論,隨着生物學習理論的發展(Mc Culloch and Pitts,1943;Hebb,1949)和第一個模型的實現(如感知機(Rosenblatt,1958)),能實現單個神經元的訓練。第2次浪潮開始於1980—1995年間的聯結主義方法,可使用反向傳播(Rumelhart et al.,1986a)訓練具備一兩個隱藏層的神經網絡。當前第3次浪潮,也就是深度學習,大約始於2006年(Hinton et al.,2006a;Bengio et al.,2007a;Ranzato et al.,2007a),而且於2016年以圖書的形式出現。另外,前兩次浪潮相似地出如今書中的時間比相應的科學活動晚得多


現代術語「深度學習」超越了目前機器學習模型的神經科學觀點。它訴諸於學習多層次組合這一更廣泛的原理,這一原理也能夠應用於那些並不是受神經科學啓發的機器學習框架。


現代深度學習最先的前身是從神經科學的角度出發的簡單線性模型。這些模型設計爲使用一組n個輸入x1,…,xn,並將它們與一個輸出y相關聯。這些模型但願學習一組權重w1,…,wn,並計算它們的輸出f(x,w)=x1w1+…+xnwn。如圖1.7所示,第一次神經網絡研究浪潮稱爲控制論。


McCulloch-Pitts 神經元(McCulloch and Pitts,1943)是腦功能的早期模型。該線性模型經過檢驗函數 f(x,w)的正負來識別兩種不一樣類別的輸入。顯然,模型的權重須要正確設置後才能使模型的輸出對應於指望的類別。這些權重能夠由操做人員設定。20 世紀 50 年代,感知機(Rosenblatt,1956,1958)成爲第一個能根據每一個類別的輸入樣原本學習權重的模型。大約在同一時期,自適應線性單元(adaptive linear element,ADALINE)簡單地返回函數f(x)自己的值來預測一個實數,而且它還能夠學習從數據預測這些數。


這些簡單的學習算法大大影響了機器學習的現代景象。用於調節ADALINE權重的訓練算法是被稱爲隨機梯度降低(stochastic gradient descent)的一種特例。稍加改進後的隨機梯度降低算法仍然是當今深度學習的主要訓練算法。


基於感知機和 ADALINE中使用的函數 f(x,w)的模型稱爲線性模型(linear model)。儘管在許多狀況下,這些模型以不一樣於原始模型的方式進行訓練,但還是目前最普遍使用的機器學習模型。


線性模型有不少侷限性。最著名的是,它們沒法學習異或(XOR)函數,即f([0,1],w)=1和f([1,0],w)=1,但f([1,1],w)=0和f([0,0],w)=0。觀察到線性模型這個缺陷的批評者對受生物學啓發的學習廣泛地產生了抵觸(Minsky and Papert,1969)。這致使了神經網絡熱潮的第一次大衰退。


如今,神經科學被視爲深度學習研究的一個重要靈感來源,但它已再也不是該領域的主要指導。


現在神經科學在深度學習研究中的做用被削弱,主要緣由是咱們根本沒有足夠的關於大腦的信息來做爲指導去使用它。要得到對被大腦實際使用算法的深入理解,咱們須要有能力同時監測(至少是)數千相連神經元的活動。咱們不可以作到這一點,因此咱們甚至連大腦最簡單、最深刻研究的部分都還遠遠沒有理解(Olshausen and Field,2005)。


神經科學已經給了咱們依靠單一深度學習算法解決許多不一樣任務的理由。神經學家們發現,若是將雪貂的大腦從新鏈接,使視覺信號傳送到聽覺區域,它們能夠學會用大腦的聽覺處理區域去「看」(Von Melchner et al.,2000)。這暗示着大多數哺乳動物的大腦使用單一的算法就能夠解決其大腦能夠解決的大部分不一樣任務。在這個假設以前,機器學習研究是比較分散的,研究人員在不一樣的社羣研究天然語言處理、計算機視覺、運動規劃和語音識別。現在,這些應用社羣仍然是獨立的,可是對於深度學習研究團體來講,同時研究許多甚至全部這些應用領域是很常見的。


咱們可以從神經科學獲得一些粗略的指南。僅經過計算單元之間的相互做用而變得智能的基本思想是受大腦啓發的。新認知機(Fukushima,1980)受哺乳動物視覺系統的結構啓發,引入了一個處理圖片的強大模型架構,它後來成爲了現代卷積網絡的基礎(LeCun et al.,1998c)(參見第 9.10 節)。目前大多數神經網絡是基於一個稱爲整流線性單元(rectified linear unit)的神經單元模型。原始認知機(Fukushima,1975)受咱們關於大腦功能知識的啓發,引入了一個更復雜的版本。簡化的現代版經過吸取來自不一樣觀點的思想而造成,Nair and Hinton(2010b)和 Glorot et al.(2011a)援引神經科學做爲影響,Jarrett et al.(2009a)援引更多面向工程的影響。雖然神經科學是靈感的重要來源,但它不須要被視爲剛性指導。咱們知道,真實的神經元計算着與現代整流線性單元很是不一樣的函數,但更接近真實神經網絡的系統並無致使機器學習性能的提高。此外,雖然神經科學已經成功地啓發了一些神經網絡架構,但咱們對用於神經科學的生物學習尚未足夠多的瞭解,所以也就不能爲訓練這些架構用的學習算法提供太多的借鑑。


媒體報道常常強調深度學習與大腦的類似性。的確,深度學習研究者比其餘機器學習領域(如核方法或貝葉斯統計)的研究者更可能地引用大腦做爲影響,可是你們不該該認爲深度學習在嘗試模擬大腦。現代深度學習從許多領域獲取靈感,特別是應用數學的基本內容,如線性代數、機率論、信息論和數值優化。儘管一些深度學習的研究人員引用神經科學做爲靈感的重要來源,然而其餘學者徹底不關心神經科學。


值得注意的是,瞭解大腦是如何在算法層面上工做的嘗試確實存在且發展良好。這項嘗試主要被稱爲「計算神經科學」,而且是獨立於深度學習的領域。研究人員在兩個領域之間來回研究是很常見的。深度學習領域主要關注如何構建計算機系統,從而成功解決須要智能才能解決的任務,而計算神經科學領域主要關注構建大腦如何真實工做的、比較精確的模型。


20 世紀 80 年代,神經網絡研究的第二次浪潮在很大程度上是伴隨一個被稱爲聯結主義(connectionism)或並行分佈處理(parallel distributed processing)潮流而出現的(Rumelhart et al.,1986d;McClelland et al.,1995)。聯結主義是在認知科學的背景下出現的。認知科學是理解思惟的跨學科途徑,即它融合多個不一樣的分析層次。20世紀80年代初期,大多數認知科學家研究符號推理模型。儘管這很流行,但符號模型很難解釋大腦如何真正使用神經元實現推理功能。聯結主義者開始研究真正基於神經系統實現的認知模型(Touretzky and Minton,1985),其中不少復甦的想法能夠追溯到心理學家Donald Hebb在20世紀40年代的工做(Hebb,1949)。

聯結主義的中心思想是,當網絡將大量簡單的計算單元鏈接在一塊兒時能夠實現智能行爲。這種看法一樣適用於生物神經系統中的神經元,由於它和計算模型中隱藏單元起着相似的做用。api


在20世紀80年代的聯結主義期間造成的幾個關鍵概念在今天的深度學習中仍然是很是重要的。網絡


其中一個概念是分佈式表示(distributed representation)(Hinton et al.,1986)。其思想是:系統的每個輸入都應該由多個特徵表示,而且每個特徵都應該參與到多個可能輸入的表示。例如,假設咱們有一個可以識別紅色、綠色或藍色的汽車、卡車和鳥類的視覺系統,表示這些輸入的其中一個方法是將 9個可能的組合:紅卡車、紅汽車、紅鳥、綠卡車等使用單獨的神經元或隱藏單元激活。這須要9個不一樣的神經元,而且每一個神經必須獨立地學習顏色和對象身份的概念。改善這種狀況的方法之一是使用分佈式表示,即用3個神經元描述顏色,3個神經元描述對象身份。這僅僅須要6個神經元而不是9個,而且描述紅色的神經元可以從汽車、卡車和鳥類的圖像中學習紅色,而不只僅是從一個特定類別的圖像中學習。分佈式表示的概念是本書的核心,咱們將在第15章中更加詳細地描述。架構


聯結主義潮流的另外一個重要成就是反向傳播在訓練具備內部表示的深度神經網絡中的成功使用以及反向傳播算法的普及(Rumelhart et al.,1986c;Le Cun,1987)。這個算法雖然曾黯然失色且再也不流行,但截至寫書之時,它還是訓練深度模型的主導方法。框架


20 世紀 90 年代,研究人員在使用神經網絡進行序列建模的方面取得了重要進展。Hochreiter(1991b)和 Bengio et al.(1994b)指出了對長序列進行建模的一些根本性數學難題,這將在第 10.7 節中描述。Hochreiter 和 Schmidhuber(1997)引入長短時間記憶(long shortterm memory,LSTM)網絡來解決這些難題。現在,LSTM在許多序列建模任務中普遍應用,包括Google的許多天然語言處理任務。機器學習


神經網絡研究的第二次浪潮一直持續到20世紀90年代中期。基於神經網絡和其餘AI技術的創業公司開始尋求投資,其作法野心勃勃但不切實際。當AI研究不能實現這些不合理的指望時,投資者感到失望。同時,機器學習的其餘領域取得了進步。好比,核方法(Boseret al.,1992;Cortes and Vapnik,1995;Schölkopf et al.,1999)和圖模型(Jordan,1998)都在不少重要任務上實現了很好的效果。這兩個因素致使了神經網絡熱潮的第二次衰退,並一直持續到2007年。分佈式


在此期間,神經網絡繼續在某些任務上得到使人印象深入的表現(Le Cun et al.,1998c;Bengio et al.,2001a)。加拿大高級研究所(CIFAR)經過其神經計算和自適應感知(NCAP)研究計劃幫助維持神經網絡研究。該計劃聯合了分別由Geoffrey Hinton、Yoshua Bengio和Yann Le Cun領導的多倫多大學、蒙特利爾大學和紐約大學的機器學習研究小組。這個多學科的CIFARNCAP研究計劃還包括了神經科學家、人類和計算機視覺專家。ide


在那個時候,人們廣泛認爲深度網絡是難以訓練的。如今咱們知道,20世紀80年代就存在的算法能工做得很是好,可是直到2006年先後都沒有體現出來。這可能僅僅因爲其計算代價過高,而以當時可用的硬件難以進行足夠的實驗。函數


神經網絡研究的第三次浪潮始於2006年的突破。Geoffrey Hinton代表名爲「深度信念網絡」的神經網絡可使用一種稱爲「貪婪逐層預訓練」的策略來有效地訓練(Hinton et al.,2006a),咱們將在第15.1節中更詳細地描述。其餘CIFAR附屬研究小組很快代表,一樣的策略能夠被用來訓練許多其餘類型的深度網絡(Bengio and Le Cun,2007a;Ranzato et al.,2007b),並能系統地幫助提升在測試樣例上的泛化能力。神經網絡研究的這一次浪潮普及了「深度學習」這一術語,強調研究者如今有能力訓練之前不可能訓練的比較深的神經網絡,並着力於深度的理論重要性上(Bengioand Le Cun,2007b;Delalleau and Bengio,2011;Pascanu et al., 2014a; Montufar et al., 2014)。此時,深度神經網絡已經優於與之競爭的基於其餘機器學習技術以及手工設計功能的AI系統。在寫這本書的時候,神經網絡的第三次發展浪潮仍在繼續,儘管深度學習的研究重點在這一段時間內發生了巨大變化。第三次浪潮已開始着眼於新的無監督學習技術和深度模型在小數據集的泛化能力,但目前更多的興趣點還是比較傳統的監督學習算法和深度模型充分利用大型標註數據集的能力。

與日俱增的數據量

人們可能想問,既然人工神經網絡的第一個實驗在20世紀50年代就完成了,但爲何深度學習直到最近才被認爲是關鍵技術?自20世紀90年代以來,深度學習就已經成功用於商業應用,但一般被視爲一種只有專家纔可使用的藝術而不是一種技術,這種觀點一直持續到最近。確實,要從一個深度學習算法得到良好的性能須要一些技巧。幸運的是,隨着訓練數據的增長,所需的技巧正在減小。目前在複雜的任務中達到人類水平的學習算法,與20世紀80年代努力解決玩具問題(toy problem)的學習算法幾乎是同樣的,儘管咱們使用這些算法訓練的模型經歷了變革,即簡化了極深架構的訓練。最重要的新進展是,如今咱們有了這些算法得以成功訓練所需的資源。圖1.8展現了基準數據集的大小如何隨着時間的推移而顯著增長。這種趨勢是由社會日益數字化驅動的。因爲咱們的活動愈來愈多地發生在計算機上,咱們作什麼也愈來愈多地被記錄。因爲計算機愈來愈多地聯網在一塊兒,這些記錄變得更容易集中管理,並更容易將它們整理成適於機器學習應用的數據集。由於統計估計的主要負擔(觀察少許數據以在新數據上泛化)已經減輕,「大數據」時代使機器學習更加容易。截至2016年,一個粗略的經驗法則是,監督深度學習算法在每類給定約5000個標註樣本狀況下通常將達到能夠接受的性能,當至少有1000萬個標註樣本的數據集用於訓練時,它將達到或超過人類表現。此外,在更小的數據集上得到成功是一個重要的研究領域,爲此咱們應特別側重於如何經過無監督或半監督學習充分利用大量的未標註樣本。


圖3 與日俱增的數據量。20世紀初,統計學家使用數百或數千的手動製做的度量來研究數據集(Garson,1900;Gosset,1908;Anderson,1935;Fisher,1936)。20世紀50年代到80年代,受生物啓發的機器學習開拓者一般使用小的合成數據集,如低分辨率的字母位圖,設計爲在低計算成本下代表神經網絡可以學習特定功能(Widrow and Hoff,1960;Rumelhart et al.,1986b)。20世紀80年代和90年代,機器學習變得更偏統計,並開始利用包含成千上萬個樣本的更大數據集,如手寫掃描數字的MNIST數據集(如圖1.9所示)(Le Cun et al.,1998c)。在21世紀的第一個10年裏,相同大小更復雜的數據集持續出現,如CIFAR-10數據集(Krizhevsky and Hinton,2009)。在這10年結束和接下來的5年,明顯更大的數據集(包含數萬到數千萬的樣例)徹底改變了深度學習可能實現的事。這些數據集包括公共Street View House Numbers數據集(Netzer et al.,2011)、各類版本的Image Net數據集(Deng et al.,2009,2010a;Russakovsky et al.,2014a)以及Sports-1M數據集(Karpathy et al.,2014)。在圖頂部,咱們看到翻譯句子的數據集一般遠大於其餘數據集,如根據Canadian Hansard製做的IBM數據集(Brown et al.,1990)和WMT2014英法數據集(Schwenk,2014)


圖4 MNIST數據集的輸入樣例。「NIST」表明國家標準和技術研究所(National Institute of Standards and Technology),是最初收集這些數據的機構。「M」表明「修改的(Modified)」,爲更容易地與機器學習算法一塊兒使用,數據已通過預處理。MNIST數據集包括手寫數字的掃描和相關標籤(描述每一個圖像中包含0~9中哪一個數字)。這個簡單的分類問題是深度學習研究中最簡單和最普遍使用的測試之一。儘管現代技術很容易解決這個問題,它仍然很受歡迎。Geoffrey Hinton將其描述爲「機器學習的果蠅」,這意味着機器學習研究人員能夠在受控的實驗室條件下研究他們的算法,就像生物學家常常研究果蠅同樣

與日俱增的模型規模

20世紀80年代,神經網絡只能取得相對較小的成功,而如今神經網絡很是成功的另外一個重要緣由是咱們如今擁有的計算資源能夠運行更大的模型。聯結主義的主要看法之一是,當動物的許多神經元一塊兒工做時會變得聰明。單獨神經元或小集合的神經元不是特別有用。

生物神經元不是特別稠密地鏈接在一塊兒。如圖1.10所示,幾十年來,咱們的機器學習模型中每一個神經元的鏈接數量已經與哺乳動物的大腦在同一數量級上。

圖5 與日俱增的每一個神經元的鏈接數。最初,人工神經網絡中神經元之間的鏈接數受限於硬件能力。而如今,神經元之間的鏈接數大可能是出於設計考慮。一些人工神經網絡中每一個神經元的鏈接數與貓同樣多,而且對於其餘神經網絡來講,每一個神經元的鏈接數與較小哺乳動物(如小鼠)同樣多,這種狀況是很是廣泛的。甚至人類大腦每一個神經元的鏈接數也沒有太高的數量。生物神經網絡規模來自Wikipedia(2015) 1.自適應線性單元(Widrow and Hoff,1960);2.神經認知機(Fukushima,1980);3.GPU-加速卷積網絡(Chellapilla et al.,2006);4.深度玻爾茲曼機(Salakhutdinov and Hinton,2009a);5.無監督卷積網絡(Jarrett et al.,2009b);6.GPU- 加速多層感知機(Ciresan et al.,2010);7.分佈式自編碼器(Le et al.,2012);8.Multi-GPU 卷積網絡(Krizhevsky et al.,2012a);9.COTSHPC無監督卷積網絡(Coates et al.,2013);10.Goog Le Net(Szegedy et al.,2014a)

如圖1.11所示,就神經元的總數目而言,直到最近神經網絡都是驚人的小。自從隱藏單元引入以來,人工神經網絡的規模大約每2.4年擴大一倍。這種增加是由更大內存、更快的計算機和更大的可用數據集驅動的。更大的網絡可以在更復雜的任務中實現更高的精度。這種趨勢看起來將持續數十年。除非有能力迅速擴展新技術,不然至少要到21世紀50年代,人工神經網絡才能具有與人腦相同數量級的神經元。生物神經元表示的功能可能比目前的人工神經元所表示的更復雜,所以生物神經網絡可能比圖中描繪的甚至要更大。

圖6 與日俱增的神經網絡規模。自從引入隱藏單元,人工神經網絡的規模大約每2.4年翻一倍。生物神經網絡規模來自Wikipedia(2015) 1.感知機(Rosenblatt,1958,1962);2.自適應線性單元(Widrow and Hoff,1960);3.神經認知機(Fukushima,1980);4.早期後向傳播網絡(Rumelhart et al.,1986b);5.用於語音識別的循環神經網絡(Robinson and Fallside,1991);6.用於語音識別的多層感知機(Bengio et al.,1991);7.均勻場sigmoid信念網絡(Saul et al.,1996);8.Le Net-5(Le Cun et al.,1998c);9.回聲狀態網絡(Jaeger and Haas,2004);10.深度信念網絡(Hinton et al.,2006a);11.GPU-加速卷積網絡(Chellapilla et al.,2006);12.深度玻爾茲曼機(Salakhutdinov and Hinton,2009a);13.GPU-加速深度信念網絡(Raina et al.,2009a);14.無監督卷積網絡(Jarrett et al.,2009b);15.GPU-加速多層感知機(Ciresan et al.,2010);16.OMP-1網絡(Coates and Ng,2011);17.分佈式自編碼器(Le et al.,2012);18.Multi-GPU卷積網絡(Krizhevsky et al.,2012a);19.COTSHPC無監督卷積網絡(Coates et al.,2013);20.Goog Le Net(Szegedy et al.,2014a)

如今看來,神經元數量比一個水蛭還少的神經網絡不能解決複雜的人工智能問題,這是不足爲奇的。即便如今的網絡,從計算系統角度來看它可能至關大,但實際上它比相對原始的脊椎動物(如青蛙)的神經系統還要小。


因爲更快的CPU、通用GPU的出現(在第12.1.2節中討論)、更快的網絡鏈接和更好的分佈式計算的軟件基礎設施,模型規模隨着時間的推移不斷增長是深度學習歷史中最重要的趨勢之一。人們廣泛預計這種趨勢將很好地持續到將來。

與日俱增的精度、複雜度和對現實世界的衝擊

20世紀80年代以來,深度學習提供精確識別和預測的能力一直在提升。並且,深度學習持續成功地應用於愈來愈普遍的實際問題中。

最先的深度模型被用來識別裁剪緊湊且很是小的圖像中的單個對象(Rumelhart et al.,1986d)。此後,神經網絡能夠處理的圖像尺寸逐漸增長。現代對象識別網絡能處理豐富的高分辨率照片,而且不須要在被識別的對象附近進行裁剪(Krizhevsky et al.,2012b)。相似地,最先的網絡只能識別兩種對象(或在某些狀況下,單類對象的存在與否),而這些現代網絡一般可以識別至少1000個不一樣類別的對象。對象識別中最大的比賽是每一年舉行的Image Net大型視覺識別挑戰(ILSVRC)。深度學習迅速崛起的激動人心的一幕是卷積網絡第一次大幅贏得這一挑戰,它將最高水準的前5錯誤率從26.1%降到15.3%(Krizhevsky et al.,2012b),這意味着該卷積網絡針對每一個圖像的可能類別生成一個順序列表,除了15.3%的測試樣本,其餘測試樣本的正確類標都出如今此列表中的前5項裏。此後,深度卷積網絡連續地贏得這些比賽,截至寫做本書時,深度學習的最新結果將這個比賽中的前5錯誤率降到了3.6%,如圖1.12所示。

圖7 日益下降的錯誤率。因爲深度網絡達到了在ImageNet大規模視覺識別挑戰中競爭所必需的規模,它們每一年都能贏得勝利,而且產生愈來愈低的錯誤率。數據來源於Russakovsky et al.(2014b)和He et al.(2015)

深度學習也對語音識別產生了巨大影響。語音識別在20世紀90年代獲得提升後,直到約2000年都停滯不前。深度學習的引入(Dahl et al.,2010;Deng et al.,2010b;Seide et al.,2011;Hinton et al.,2012a)使得語音識別錯誤率陡然降低,有些錯誤率甚至下降了一半。咱們將在第12.3節更詳細地探討這個歷史。


深度網絡在行人檢測和圖像分割中也取得了引人注目的成功(Sermanet et al.,2013;Farabet et al.,2013;Couprie et al.,2013),而且在交通標誌分類上取得了超越人類的表現(Ciresan et al.,2012)。

在深度網絡的規模和精度有所提升的同時,它們能夠解決的任務也日益複雜。Goodfellow et al.(2014d)代表,神經網絡能夠學習輸出描述圖像的整個字符序列,而不是僅僅識別單個對象。此前,人們廣泛認爲,這種學習須要對序列中的單個元素進行標註(Gulcehre and Bengio,2013)。循環神經網絡,如以前提到的LSTM序列模型,如今用於對序列和其餘序列之間的關係進行建模,而不是僅僅固定輸入之間的關係。這種序列到序列的學習彷佛引領着另外一個應用的顛覆性發展,即機器翻譯(Sutskever et al.,2014;Bahdanau et al.,2015)。

這種複雜性日益增長的趨勢已將其推向邏輯結論,即神經圖靈機(Graves et al.,2014)的引入,它能學習讀取存儲單元和向存儲單元寫入任意內容。這樣的神經網絡能夠從指望行爲的樣本中學習簡單的程序。例如,從雜亂和排好序的樣本中學習對一系列數進行排序。這種自我編程技術正處於起步階段,但原則上將來能夠適用於幾乎全部的任務。

深度學習的另外一個最大的成就是其在強化學習(reinforcement learning)領域的擴展。在強化學習中,一個自主的智能體必須在沒有人類操做者指導的狀況下,經過試錯來學習執行任務。DeepMind代表,基於深度學習的強化學習系統可以學會玩Atari視頻遊戲,並在多種任務中可與人類匹敵(Mnih et al.,2015)。深度學習也顯著改善了機器人強化學習的性能(Finn et al.,2015)。

許多深度學習應用都是高利潤的。如今深度學習被許多頂級的技術公司使用,包括Google、Microsoft、Facebook、IBM、Baidu、Apple、Adobe、Netflix、NVIDIA和NEC等。


深度學習的進步也嚴重依賴於軟件基礎架構的進展。軟件庫如Theano(Bergstra et al.,2010a;Bastien et al.,2012a)、PyLearn2(Goodfellow et al.,2013e)、Torch(Collobert et al.,2011b)、Dist Belief(Dean et al.,2012)、Caffe(Jia,2013)、MXNet(Chen et al.,2015)和Tensor-Flow(Abadi et al.,2015)都能支持重要的研究項目或商業產品。


深度學習也爲其餘科學作出了貢獻。用於對象識別的現代卷積網絡爲神經科學家們提供了能夠研究的視覺處理模型(DiCarlo,2013)。深度學習也爲處理海量數據以及在科學領域作出有效的預測提供了很是有用的工具。它已成功地用於預測分子如何相互做用、從而幫助製藥公司設計新的藥物(Dahl et al.,2014),搜索亞原子粒子(Baldi et al.,2014),以及自動解析用於構建人腦三維圖的顯微鏡圖像(Knowles-Barley et al.,2014)等多個場合。咱們期待深度學習將來可以出如今愈來愈多的科學領域中。


總之,深度學習是機器學習的一種方法。在過去幾十年的發展中,它大量借鑑了咱們關於人腦、統計學和應用數學的知識。近年來,得益於更強大的計算機、更大的數據集和可以訓練更深網絡的技術,深度學習的普及性和實用性都有了極大的發展。將來幾年,深度學習更是充滿了進一步提升並應用到新領域的挑戰和機遇。

訂價:168元

★ 「花書」《深度學習》AI聖經!
★ 全球知名專家Ian Goodfellow、Yoshua Bengio和Aaron Courville撰寫。
★ 美亞人工智能和機器學習領域排名第一的經典暢銷書。
★ 深度學習領域奠定性的圖書產品!
★ 全綵印刷。

內容簡介

《深度學習》由全球知名的三位專家Ian Goodfellow、Yoshua Bengio 和Aaron Courville撰寫,是深度學習領域奠定性的經典教材。全書的內容包括 3 個部分:第 1 部分介紹基本的數學工具和機器學習的概念,它們是深度學習的預備知識;第 2 部分系統深刻地講解現今已成熟的深度學習方法和技術;第 3 部分討論某些具備前瞻性的方向和想法,它們被公認爲是深度學習將來的研究重點。


- END -
相關文章
相關標籤/搜索