計算機視覺已是平常生活的一部分。藉助這種技術,Facebook能夠識別你上傳到社交網絡的照片上的人物;Google Photo可以自動在收藏行列中找出特定的圖片,以及識別出各類各樣的東西……這樣的應用已經在互聯網中流行已久。全部這些「識別」都源自於一種被稱爲深度學習的人工智能技術。但就在這種技術被大肆炒做的幾年時間中,來自微軟研究院的一項新實驗證實這只是人工智能的開始——深度學習還能夠更深度。算法
深層神經網絡的突破:152個層級數據庫
計算機視覺革命是一場持久的鬥爭。2012年,這項技術迎來了關鍵的轉折點,那時加拿大多倫多大學人工智能研究者贏得了一場叫做ImageNet的比賽。ImageNet讓一羣機器PK圖像內容識別,對圖片中的小貓、小狗和白雲,看看哪臺計算機的識別準確率更高。當時,由研究員Alex Krizhevsky和教授Geoff Hinton組成的多倫多大學團隊在比賽中使用了深層神經網絡技術,這種技術的算法可讓機器基於目前最大的圖像數據庫進行分類識別,而不是依靠人爲制定的規則。編程
多倫多大學團隊使用非監督的逐層貪心訓練算法取得的成果,爲訓練深度神經網絡帶來了但願。從那時候開始,包括Facebook、Google、Twitter和微軟在內的互聯網巨頭紛紛開始使用類似的科技來建造本身的計算機視覺系統。微軟研究院主管Peter Lee表示:「還不能說咱們的系統可以像人類眼睛同樣進行觀察,但我敢說,在某些特定的、狹義的任務上,計算機視覺能夠媲美人類。」安全
粗略地說,神經網絡兼用硬件和軟件來模擬近似人類的大腦神經元網絡。這個想法誕生於上世紀80年代,但直到2012年,Krizhevsky和Hinton基於圖像處理單元、GPU運行的神經網絡技術纔算真正地推進了這項技術的發展。這些專門的處理器和其餘高度圖形化軟件最初都是爲了遊戲中的圖像渲染而設計,但事實證實,它們也適合於神經網絡。Google、Facebook、Twitter、微軟等公司現在都使用GPU來驅動人工智能來處理圖像識別,以及包括互聯網搜索、安全防護等其餘任務。如今,Krizhevsky和Hinton都已經加入了Google。網絡
現在,最新一屆ImageNet的贏家正在探求計算機視覺的下一個突破點——以及人工智能更加普遍的應用。上個月,微軟研究院團隊摘得了ImageNet的桂冠,他們使用了一個「深層殘差系統」來指導神經網絡結構的設計。目前廣泛使用的神經網絡層級可以達到20到30層,在這次挑戰賽中該團隊應用的神經網絡系統實現了152層。ImageNet挑戰賽去年獲勝的系統錯誤率爲6.6%,而今年微軟系統的錯誤率已經低至3.57%。機器學習
而這也代表,在將來幾年裏,利用大型的GPU集羣和其餘專屬的處理器,咱們不只可以改善圖像識別,並且還能解決對話識別、天然語言理解等人工智能服務。換句話說,目前深度學習所能達到的發展程度越發接近其本應具備的潛力了。Lee表示,微軟正致力於發掘更巨大的設計空間。學習
深度神經網絡以「層」的形式分佈。每一層都具備不一樣系列的運算——也就是算法。某一層的輸出會成爲下一層的輸入。籠統地說,若是一個神經網絡是設計用來進行圖像識別的,其中某一層神經將負責尋找圖片的一系列特性——邊、角、形狀或者紋理——而下一層神經則負責尋找另外一個系列的特性。這些層級就構成了神經網絡的」深度「。負責監督ImageNet大賽的北卡羅來納大學研究員Alex Berg介紹:「通常而言,神經網絡越深度,機器學習就越容易。」優化
因此,微軟研究院團隊應用的152層神經網絡系統可以識別出更多的對象屬性,大大提升了圖像識別的準確率。「它們能夠學習到更多微妙的東西。」人工智能
事實上,過去這種很深的神經網絡並不可行。部分緣由是,在經過每一層級的反傳訓練中,反傳監督信號幅度會迅速衰減甚至消退,這讓整個神經網絡系統的訓練極爲困難。根據Lee的介紹,微軟經過使用深度殘差網絡解決了這個困難——這個深度殘差網絡能夠在不須要時跳過某些層級,而須要用到時又能夠從新拾回。「跳過某些不須要的層級,有助於保持反傳監督信號的幅度。」「殘差學習」最重要的突破在於重構了學習的過程,並從新定向了深層神經網絡中的信息流,很好地解決了此前深層神經網絡層級與準確度之間的矛盾。spa
Berg表示,這個新的設計不一樣於以往的神經網絡系統,相信其餘大公司和研究者都會效仿。
「深層」的困難
另外一個問題是,構建這樣一個宏大的神經網絡是很是困難的。落地於一套特定的算法——決定每個層級應該如何運做、如何與下一個層級進行傳遞——能夠說是一個史詩級的任務。不過,在這裏微軟一樣有個訣竅——它設計了一個計算系統,能夠幫助構建這些神經網絡。
微軟研究院團隊成員之一孫劍解釋稱,研究人員能夠爲大規模的神經網絡尋找出可行的排列,而後系統能夠對一系列類似的可能性進行循環運算,直到計算出最有效的排列。「大多數狀況下,在通過必定次數的嘗試後,研究人員會從中總結、反饋,而後爲下一輪的嘗試給出新的決策。咱們能夠將這種方式成爲‘人工輔助搜索’。」
深度學習創業公司Skymind首席研究員Adam Gibson表示,這樣的作法愈來愈流行,「這叫作‘超參數優化算法’。」「人們能夠加速機器集羣的運算,一次同時運行10個模型,而後找出效果最優的一個。」
「歸根結底是一個關於硬件的問題」
按照孫劍和Peter Lee的描述,這種方法並非在這個問題上「蠻幹」。「在有着大量的計算資源後,系統天然就能夠計算出一個龐大的組織,而後在這個具備無限可能的空間內進行搜索。只是,目前世界上還具有這樣充足的計算資源,所以咱們主要仍是依靠像孫劍這樣聰明的研究員。」
但Lee強調說,多虧了新的技術以及計算機數據中心,才使得發展深度學習有了巨大的可能性。現在,微軟的重要任務之一是創造出開發這些可能性的時間和計算機系統。這就是微軟爲什麼不只努力改進GPU集羣的運算能力,還開發其餘諸如現場可編程門陣列(FPGA)等專用處理器的緣由之一。而除此以外,微軟研究員還須要開發更多試驗性的硬件平臺。
如Gibson所言,深度學習越發變成爲一個「硬件問題」。確實,咱們仍須要高級研究員來指導神經網絡的構建,但所謂尋找新的途徑更多地是開發適用於更多硬件平臺的新算法,而更多更好的硬件支撐能夠說是一個捷徑。