原文鏈接:http://blog.kaggle.com/2014/12/22/convolutional-nets-and-cifar-10-an-interview-with-yan-lecun/php
摘要:CIFAR-10競賽以後,卷積網絡之父Yann LeCun接受相關採訪。他認爲:卷積網絡須要大數據和高性能計算機的支持;深層卷積網絡的訓練時間不是問題,運行時間纔是關鍵。Yann LeCun還分享了他正在作的一些最新研究。html
Kaggle近期舉辦了一場 關於CIFAR-10數據集的競賽,該數據集包含有6萬個32*32的彩色圖像,共分爲10種類型,由 Alex Krizhevsky, Vinod Nair和 Geoffrey Hinton收集而來。算法
不少競賽選手使用了卷積網絡來完成這場競賽,其中一些在該分類任務中靠着超乎人類能力的表現而得分。在本系列的博客中,咱們將會分別採訪三位選手和卷積網絡之父、Facebook人工智能實驗室主任和紐約大學教授 Yann LeCun 。數據庫
上圖是cifar-10數據集的樣例後端
如下是Yann LeCun的訪談內容:數組
還有哪些科學家爲卷積網絡的成功做出了巨大貢獻?網絡
毫無疑問,日本學者 Kunihiko Fukushima 提出的神經認知機(NeoCognitron)有着啓迪性的意義。儘管卷積網絡(convnets)的早期形態並未包含NeoCognitron太多的影子,可是咱們使用的版本(有pooling層的)卻深受其影響。架構
示意圖演示的是神經認知機中層與層之間的相互鏈接。Fukushima K.(1980年)在 神經認知機一文中寫道:模式識別機制的自組織神經網絡模型不受位置變化的影響。機器學習
能回憶一下早期在卷積網絡研究時出現的「頓悟」時刻或者突破性進展嗎?ide
從1982年左右,我一直就本地節點的多層網絡進行研究(儘管缺少正確的學習算法,那時候Backprop 即BP算法還沒出現)。在1988年的時候我拿到了博士後學位,那時候我在作共享權值網絡(shared weight nets)的研究試驗。
沒能早一點進行卷積網絡相關研究的緣由至關簡單:缺少軟件和數據。一到貝爾實驗室以後,我接觸到了大量數據集和運行飛快的電腦(在當時算是),於是能夠試着構建完整的卷積網絡,並且使人驚喜的是其運行良好(儘管須要兩週的訓練)。
您對卷積網絡近期在目標識別方面大熱的見解如何?是否曾預料過?
是的,我知道確定會這樣,只是時間問題罷了,取決於數據集是否足夠大,計算機是否足夠強勁,可以支持深度學習算法在設計視覺系統方面比人類工程師作得更加優秀。
麻省理工學院2011年8月有一個「計算機視覺前沿」研討會,我在上面 演講 的題目爲《五年內全部人都會學習該特性(你不妨如今就開始)》, David Lowe ( SIFT 算法的發明者)也表示了一樣的見解。
LeCun Y.在2011年演講時的一張幻燈片
可是我仍然爲變動發生的速度,還有卷積網絡較其餘手段的優秀程度感到驚詫,在個人預想中,過渡會更平緩一些。一樣,我曾寄望於「無監督學習」的優秀表現。
AT&T的特性認知模型不止是一個簡單的分類器,而是完整的管道。可否深刻介紹您的團隊所面臨的實現問題?
爲了作到這一點,咱們必須實現本身的程序語言同時編寫本身的編譯器。早在1987/1988年,我和Leon Bottou 一同編寫了一個名叫SN的神經網絡模擬器,它是一個包含numerical library的LISP解譯器(多維數組,神經網絡圖形……)。咱們在貝爾實驗室中使用它開發出了第一個卷積網絡。
在90年代早期,咱們想要在產品中使用本身的代碼。最初咱們僱傭了一支開發團隊,將咱們的Lisp代碼轉化成C/C++,可是運算結果的系統沒法輕易獲得改善(它並不是一個優秀的研發平臺),所以我和Leon還有 Patrice Simard 一塊兒爲SN編寫了一個編譯器,用來開發下一代OCR引擎。
該系統率先將節點分段、卷積網絡和圖解模型集成起來,點對點地進行總體訓練。
圖解模型被叫作「圖變換網絡」,從概念上來講與條件隨機場(CRF)或者結構化的感知機(先於其產生)相似,可是容許包含非線性評分函數(CRF和結構化的感知機都只容許線性函數)。
該系統的總體基礎架構以SN編寫和編譯,1996年時可部署在自動化機器上並讀取圖形字符,90年代末期可讀出10%到20%的圖形字符。
AT&T LeNet 5動畫演示
與其餘方式比較,卷積網絡的訓練十分緩慢。您如何在實驗與增長的模型訓練時間之間進行取捨?典型的迭代開發是什麼樣的?
在實驗中,最佳的大型學習系統訓練總得花費兩到三週,這還沒算任務、方法、硬件或者數據。
我不知道卷積網絡是否「太慢」,你是說與什麼相比呢?可能訓練上比較慢,可是若是不這樣的話,也須要工程師數月徒勞的努力。另外,(在訓練後)卷積網絡運行起來其實是很快的。
在一個實際的應用中,沒人關心訓練到底要花多長時間,人們只關心運行須要多久。
最近關於卷積網絡哪些論文最讓您興奮?哪些是咱們應當留意的?
在過去的20多年中,有許許多多關於卷積網絡和深度學習的想法都默默無聞,沒人關心那些,發表論文老是十分艱難,所以有不少想法並未通過嘗試或發表,再或者就是嘗試發表了但卻被徹底忽視並迅速忘卻了,誰還記得基於人臉監測的首個有效嘗試使用的是卷積網絡(早在1993年,比Viola-Jones 還要早八年)?
Vaillant R., Monrocq C., LeCun Y.《肖像中目標定位的原始手段》,1993年
今天,看到這麼多前途光明的年輕人在這個主題上如此積極投入並提出這麼多新想法和新應用,真是讓人驚喜不已。硬件/軟件基礎架構愈來愈好,在幾個小時或者幾天裏進行大型網絡的訓練逐漸變爲可能,所以人們能夠進行更多想法的嘗試。
我十分感興趣的一個idea是「光譜卷積網絡」。這是在ICLR 2014上我在紐約大學實驗室的同儕發佈的一篇論文,課題是廣義化的卷積網絡能夠適用於任意圖像(規則的卷積網絡能夠適用於1D,2D或3D數組,按圖像能夠被當作規則網格)。的確還存在一些實際的問題,可是它開啓了一扇大門,讓咱們看到了通往卷積網絡非結構化數據的更多應用方向。
球體內的MNIST數字
出處: Bruna J., Zaremba W., Szlam A., LeCun Y.《光譜網絡與圖形方面的深度本地鏈接網絡》,2013年
對於卷積網絡還有周期性網絡在天然語言理解方面的應用,我倍感興味(跟隨着 Collobert 和Weston 開創性的工做)。
鑑於人類的錯誤率被估算在6%左右,而Graham博士展現的結果在4.47%,你是否定爲CIFAR-10已經被解決了?
這個問題同 MNIST 同樣已經獲得解決,但坦率來說,相比CIFAR-10現下人們對於 ImageNet (圖像識別目前最大的數據庫)更感興趣。在這層意義上,CIFAR-10並不是是一個「真正」的問題,可是對於一個新算法來講這不是一個糟糕的基準。
工業界對卷積網絡更加普遍的採用還須要什麼條件?卷積網絡的訓練和創建所需的軟件會變得更加簡單嗎?
要看你在說什麼,如今卷積網絡在工業界已經無處不在(或者近似無處不在),包括Facebook,Google, Microsoft, IBM, Baidu, NEC, Twitter, Yahoo!等等。
即使如此,事實上以上全部公司都有重要的研發資源,而卷積網絡訓練對於小公司或者科技沒那麼先進的公司來講仍是頗有挑戰性的。
若是你沒有接受過訓練的話,接受卷積網絡的訓練仍然須要至關的經驗和時間投入,可是很快會有幾個簡單的高效後端開源包出現。
咱們離卷積網絡的極限還有多遠?或者說CIFAR-100會被「解決」嗎?
我不以爲這是個好測試, ImageNet 會更好。
經過淺層網絡的訓練能夠執行相似複雜的、設計良好的、更深的卷積架構。深層學習網絡真的須要那麼深麼?
沒錯,深層學習網絡須要如此。嘗試經過淺層網絡訓練來模擬在ImageNet上訓練過的深層卷積網絡,你會發現,理論上深層學習網絡能夠與淺層的相接近,可是在複雜的任務上,淺層網絡相距甚遠。
您大部分的學術著做在本質上都有高度實用性,是故意爲之仍是公司的特地要求?是否可以告訴咱們理論與實踐之間的差異?
從2003年開始我就開始從事學術工做,同時還兼職紐約大學的教授。理論研究同時也幫助我理解事物。理論一般會幫助咱們理解什麼是可能的,什麼是不可能的,爲咱們指明最合適的辦事方式。
可是有時候理論會對思惟產生限制,某些人不會使用一些理論模型,由於相關的理論太過晦澀,可是一般來講,一個在人們得知爲何它會運行良好的緣由以前就已經運行良好的技術,理論上會得到更全面的理解。
一個理論上徹底得到理解的東西會反而讓你受到束縛,你會先入爲主地使用簡單的方式。
另外,有時候理論會讓咱們盲目,好比一些人會由於核心方法附屬的cute math而眼花繚亂,可是就像我以前說過的那樣,最終的核心機器是那些執行「美化模版匹配」的淺層網絡。這點徹底沒錯(SVM是很好的方式),可是它有着可怕的侷限性,咱們應當充分警戒。
LeCun Y.的幻燈片,從穩定特徵來學習層次結構,2013年
在您看來,一個運做良好且不受「爲何它會運做良好」這一理論緣由影響的卷積網絡是什麼樣的?一般您是否偏好執行更甚於理論?如何平衡?
我不以爲執行與理論之間須要抉擇,若是能執行,就會有相關可解釋的理論。
另外,你談及的是什麼樣的理論?是說泛化界限嗎( generalization bound )?卷積網絡有着限定的VC維(VC Dimension),所以二者一致並有着典型的VC維。你還想要什麼?是像SVM中那樣更嚴格的界限嗎?就我所知,沒有一個理論的界限會足夠嚴格,能夠適用實際需求,因此個人確不太明白這個問題。固然,普通的VC維不夠嚴格,可是非泛型範圍(像SVMs)只會稍微欠缺一點嚴格性。
若是你但願的是收斂性證實(或保證),就有一點複雜了。多層網的損失函數不是凸值,所以簡易證實該函數爲凸不可行。可是咱們都知道實際上卷積網絡幾乎老是會收斂到同一水平,不管起點是什麼(若是初始化完成正確)。有理論證實,有許許多多等效局部最小值,還有一個數字很小的「壞」局部最小值。所以收斂性並不會形成問題。
關於人工智能的大肆宣傳您怎麼看?您認爲怎樣的實踐不利於這一領域(即通常的人工智能尤爲是卷積網絡)?
人工智能的大肆宣傳很是危險,它令不一樣手段的人工智能相比過去減小了至少四倍,不管什麼時候只要看到大肆宣傳,無論它是來自報刊媒體、尋求投資的初創公司、尋找PR的大型公司仍是尋找投資的學術人員,我都會大聲喝止。
固然如今有至關一部分是關於深層學習的大肆宣傳,我還沒看到過專門關於卷積網絡特別厲害的宣傳,有更可能是皮質層、神經元還有神經形態之類。與不少這類東西不一樣的是,實際上卷積網絡在有用的任務上確實能帶來好的結果,並在行業應用上廣爲應用。
Facebook有什麼跟卷積網絡相關的有趣項目嗎?能談一下基本狀況嗎?
人臉深層識別:人臉識別的卷積網絡,同時也是圖像標記的卷積網絡,很是大。
描述體系結構的圖形
出處:Taigman Y., Yang M., Ranzato M., Wolf L.《不限制的人臉深層識別》,2014年
最近您發表了《四型嚴肅研究者》,您對本身怎麼歸類?
我是第3種,包含一點1和4的特質。
對CIFAR-10挑戰的獲勝者您有什麼想說的嗎?對於學習卷積網絡的研究人員或是興趣愛好者您有什麼祝願?對於CIFAR數據集或者問題呢?
參與者的創造力和設計技巧給我留下了很深入的印象,人們推進相關科技進步的行爲很使人欣慰。
可是對於獨立研究人員和興趣愛好者來講,研究這些並將其應用於大型數據集變得愈來愈簡單,我認爲CIFAR-10的獲勝者應當是ImageNet-1K-128*128,這會是有着1000種圖像網絡分類任務的版本,同時圖像爲標準化的128*128,我看到了一些優勢:
ImageNet的預測
出處:Krizhevsky A., Sutskever I., Hinton. G.E.《深層卷積神經網絡的ImageNet分類》,2012年
擁有大量標記數據的需求可能會是個問題,對於無標記數據或者運用圖片搜索引擎進行數據的自動標記化的網絡訓練上,您有什麼見解?
有像是視頻理解和天然語言理解這樣的任務,咱們計劃會使用無監督學習方式。可是這些形式都有時間維度因素,會影響咱們解決問題的手段。
明確來講,咱們須要設計算法,這種算法能夠學習感知世界的架構,並沒有需被告知全部事物的名稱。咱們中的不少人這些年甚至數十年來一直都在從事這方面的研究工做,可是都沒有完美的解決方案。
您最新的研究是關於什麼的?
就這個問題有兩個答案:
項目類型一大多在紐約大學,項目類型二大多在Facebook。
大致領域包括:
探索「不變量」特性的非監督學習,深層學習與結構化預測的結合,監督與非監督學習的一致性,解決學習長期依賴關係的問題,建構短時間或暫存學習體系,學習計劃與一系列的行動,優化功能的不一樣方式,從表象學習到綜合推理(閱讀Leon Bottou優秀的意見論文《從機器學習到機器推理》),學習對於高效執行推理的用處,以及衆多其餘課題。