揭開深度學習黑箱:希伯來大學計算機科學教授提出「信息瓶頸」

耶路撒冷希伯來大學的計算機與神經科學家 Naftali Tishby 提出了一項名爲「信息瓶頸」(Information Bottleneck)的新理論,有望最終打開深度學習的黑箱,以及解釋人腦的工做原理。這一想法是指神經網絡就像把信息擠進瓶頸同樣,只留下與通常概念最爲相關的特徵,去掉大量無關的噪音數據。深度學習先驅 Geoffrey Hinton 則在發給 Tishby 的郵件中評價道:「信息瓶頸極其有趣,估計要再聽 10000 遍才能真正理解它,當今能聽到如此原創的想法很是可貴,或許它就是解開謎題的那把鑰匙。」

一個稱爲「信息瓶頸」的新想法有助於解釋當今人工智能算法的黑箱問題——以及人類大腦的工做原理。
現在「深度神經網絡」已經學會對話、駕駛汽車、打視頻遊戲、玩圍棋、繪畫並輔助科研,這使其人類構建者非常困惑,併爲深度學習算法的成果深感意外。這些學習系統的設計並無一條明確的原則,除了來自大腦神經元的靈感(其實並無人知道大腦是如何工做的),而且 DNN 早就和大腦神經元的原理相去甚遠。算法

像大腦同樣,深度神經網絡具備神經元層——這些人工神經元構成了計算機的記憶。當一個神經元激活,它向鏈接到下一層的神經元發送信號。在深度學習中,網絡鏈接按需強化或弱化(加權鏈接)從而更好地把來自輸入數據的信號——好比,一張狗的圖像像素點——發送到與高級概念(好比狗)相關聯的神經元。當深度神經網絡學習數以千計的狗的樣本圖像以後,它可像人同樣精確地重新圖像中辨識出狗。這一魔術般的學習能力使其具有了可像人同樣推理、創造進而擁有智能的基礎。專家好奇深度學習是如何作到這一點的,並在何種程度上與人腦理解世界的方式相同。網絡

從經驗中學習。深度神經網絡經過調節鏈接權重以更好地傳遞輸入信號,信號通過隱藏層,最終到達與正確概念相關聯的神經元。當數據輸入到神經網絡,激活的每個神經元(被標註爲 1)把信號傳遞到下一層的特定神經元(若是接受到多個信號則極可能被激活)。這一過程會過濾掉噪聲並只保留最相關的特徵。架構

上月,一個在人工智能研究者之間普遍流傳的柏林會議 YouTube 視頻給出了黑箱可能的答案。會議中來自耶路撒冷希伯來大學的計算機與神經科學家 Naftali Tishby 爲一項解釋深度學習工做原理的新理論提供了證據。Tishby 論證道深度神經網絡依據被稱做「信息瓶頸」的步驟學習,這一術語其與另外兩名合做者早在 1999 年就已提出。這一想法是指神經網絡就像把信息擠進瓶頸同樣,只留下與通常概念最爲相關的特徵,去掉大量無關的噪音數據。由 Tishby 及其學生 Ravid Shwartz-Ziv 聯合進行的引人注目的實驗揭示了發生在深度學習之中的擠壓過程,至少在他們研究案例中是這樣。Tishby 的發如今人工智能社區中引起了躁動。谷歌研究員 Alex Alemi 說:「我認爲信息瓶頸對將來的深度神經網絡研究很重要。我甚至發明了新的近似方法,從而把信息瓶頸分析應用到大型深度神經網絡中。」他又說:「信息瓶頸不只能夠做爲理論工具用來理解神經網絡的工做原理,一樣也能夠做爲構建網絡架構和新目標函數的工具。」app

一些研究者則仍懷疑該方法是否完全解釋了深度學習的成功,可是 Kyle Cranmer——一名來自紐約大學粒子物理學家,他曾使用機器學習分析了大量強子對撞機中的粒子對撞——則認爲信息瓶頸做爲通常性的學習原理,「多少仍是正確的」。機器學習

深度學習先驅 Geoffrey Hinton 在柏林會議以後給 Tishby 發了郵件:「信息瓶頸極其有趣,估計要再聽 10000 遍才能真正理解它,當今能聽到如此原創的想法很是可貴,或許它就是解開謎題的那把鑰匙。」函數

據 Tishby 所講,信息瓶頸是一個根本性的學習原則,無論是算法、家蠅、有意識的存在仍是突發事件的物理計算。咱們期待已久的答案便是「學習的關鍵偏偏是遺忘。」工具


瓶頸性能

Tishby 大概是在其餘的研究者開始搞深度神經網絡之時開始構思信息瓶頸的。那是 1980 年代,Tishby 在思考人類在語音識別上的極限是什麼,當時這對人工智能來講是一個巨大的挑戰。Tishby 意識到問題的關鍵是相關性:口頭語言最爲相關的特徵是什麼?咱們如何從與之相隨的變量中(口音、語調等)將其提取出來?通常來說,當面對現實世界的海量數據之時,咱們會保留哪些信號?學習

希伯來大學計算機科學教授 Naftali Tishby測試

「相關性的理念在歷史上多有說起,但從未獲得正確的闡述;從香農本人有偏差的概念開始,多年來人們並不認爲信息論是闡述相關性的正確方式。」Tishby 在上月的採訪中說。

信息論的創建者香農經過抽象思考在必定意義上解放了始於 1940 年代的信息研究——1 和 0 只具備純粹的數學意義。正如 Tishby 所說,香農認爲信息與語義學無關,可是 Tishby 並不認同。藉助信息論,Tishby 意識到能夠精確地定義相關性。

假設 X 是一個複雜的數據集,好比狗的圖像像素,Y 是一個被這些數據表徵的較簡單的變量,好比單詞「狗」。經過儘量地壓縮 X 而又不失去預測 Y 的能力,咱們在關於 Y 的 X 中能夠捕獲全部的相關性信息。在 1999 年的論文中,Tishby 與聯合做者 Fernando Pereira(如今谷歌)、William Bialek(如今普林斯頓大學)共同將這個概念闡述爲一個數學優化問題。這是一個沒有潛在黑箱問題的基本思想。

Tishby 說:「30 年來我在不一樣的環境下一直思考它,我惟一的慶幸是深度神經網絡變的如此重要。」

眼球長在臉上,臉長在人身上,人處於場景中

儘管這一隱藏在深度神經網絡後面的概念已經討論了幾十年,可是它們在語音識別、圖像識別等任務中的表如今 2010 年代纔出現較大的發展,這和優化的訓練機制、更強大的計算機處理器息息相關。2014 年,Tishby 閱讀了物理學家 David Schwab 和 Pankaj Mehta 的論文《An exact mapping between the Variational Renormalization Group and Deep Learning》(變分重整化和深度學習之間的映射關係),認識到他們與信息瓶頸原則的潛在聯繫。

Schwab 和 Mehta 發現 Hinton 發明的深度學習算法「深度信念網絡」在特定的狀況下和重整化(renormalization)同樣,重整化是一種經過粗粒化物理系統的細節、計算全局狀態從而簡化該系統的技術。二人將深度信念網絡應用到分形(在不一樣的尺度上有自類似性)臨界磁化系統模型中時,他們發現網絡將自動使用一種相似重整化的過程尋找模型的狀態。這使人印象深入,正如生物物理學家所說,「統計物理學中的提取相關特徵和深度學習中的提取相關特徵不僅是類似的詞,它們的含義也是同樣的。」

惟一的問題是,現實世界通常而言不是分形的(fractal)。「天然世界並非耳朵長在耳朵再長在耳朵上;而是眼球長在臉上,臉長在人身上,人處於場景中,」Cranmer 說,「所以我不會說,深度學習網絡處理天然圖像很優秀是由於其相似重整化的工做方式。」可是,Tishby 意識到,深度學習和粗粒化過程能夠被包含於更廣義的思惟中。

Naga Zaslavsky(左)和 Ravid Shwartz-Ziv(右)做爲 Naftali Tishby 的畢業生幫助創建了深度學習的信息瓶頸理論

在 2015 年,他和他的學生提出假設,(https://arxiv.org/abs/1503.02406)深度學習是一個信息瓶頸程序,儘量的壓縮數據噪聲,保留數據想表達的信息。Tishby 和 Shwartz-Ziv 的新的深度神經網絡實驗揭示了瓶頸程序是如何工做的。在一個案例中,研究員訓練小型網絡使其將數據標記爲 1 或 0(好比「狗」或「非狗」),網絡一共有 282 個神經鏈接並隨機初始化鏈接強度,而後他們使用 3000 個樣本的輸入數據集追蹤網絡究竟在作什麼。

大多數深度學習網絡訓練過程當中用來響應數據輸入和調整神經鏈接強度的基本算法都是「隨機梯度降低」:每當輸入訓練數據到網絡中,一連串的激活行爲將接連每一層的神經元。當信號到達最頂層時,最後的激活模式將對應肯定的標籤,1 或 0,「狗」或「非狗」。激活模式和正確的模式之間的不一樣將會「反向傳播」回網絡的層中,即,正如老師批改做業同樣,這個算法將強化或者弱化每個鏈接的強度以使網絡能輸出更產生的輸出信號。通過訓練以後,訓練數據的通常模式將體如今神經鏈接的強度中,網絡將變成識別數據的專家。

在他們的實驗中,Tishby 和 Shwartz-Ziv 追蹤了深度神經網絡的每一層保留了多少輸入數據的信息,以及每一層保留了多少輸出標籤的信息。他們發現,網絡逐層收斂到了信息瓶頸的理論範圍(Tishby 導出的理論極限)。Pereira 和 Bialek 最初的論文中展現了系統提取相關信息的最佳結果。在信息瓶頸的理論範圍內,網絡將盡量地壓縮輸入,而無需犧牲精確預測標籤的能力。

Tishby 和 Shwartz-Ziv 還發現了一個頗有趣的結果,深度學習以兩個狀態進行:一個短時間「擬合」狀態,期間網絡學習標記輸入數據,和一個時間長得多的長期「壓縮」狀態,經過測試其標記新測試數據的能力能夠得出期間網絡的泛化能力變得很強。

圖片來自 arXiv:1703.00810


A. 初始狀態:第一層的神經元編碼輸入數據的全部信息,包括其中的標籤信息。最高層神經元處於幾乎無序的狀態,和輸入數據或者其標籤沒有任何關聯。

B. 擬合狀態:深度學習剛開始的時候,高層神經元得到輸入數據的信息,並逐漸學會匹配標籤。

C. 狀態變化:網絡的層的狀態忽然發生變化,開始「遺忘」輸入數據的信息。

D. 壓縮狀態:網絡的高層壓縮對輸入數據的表示,保留與輸出標籤關聯最大的表示,這些表示更擅長預測標籤。

E. 最終狀態:網絡的最高層在準確率和壓縮率之間取得平衡,只保留能夠預測標籤的信息。

當深度神經網絡用隨機梯度降低調整鏈接強度時,最初網絡存儲輸入數據的比特數基本上保持常量或者增長很慢,期間鏈接強度被調整以編碼輸入模式,而網絡標註數據的能力也在增加。一些專家將這個狀態與記憶過程相比較。

而後,學習轉向了壓縮狀態。網絡開始對輸入數據進行篩選,追蹤最突出的特徵(與輸出標籤關聯最強)。這是由於在每一次迭代隨機梯度降低時,訓練數據中或多或少的偶然關聯都驅使網絡作不一樣的事情,使其神經鏈接變得或強或弱,隨機遊走。這種隨機化現象和壓縮輸入數據的系統性表徵有相同的效果。舉一個例子,有些狗的圖像背景中可能會有房子,而另外一些沒有。當網絡被這些照片訓練的時候,因爲其它照片的抵消做用,在某些照片中它會「遺忘」房子和狗的關聯。Tishby 和 Shwartz-Ziv 稱,正是這種對細節的遺忘行爲,使系統能生成通常概念。實際上,他們的實驗揭示了,深度神經網絡在壓縮狀態中提升泛化能力,從而更加擅長標記測試數據。(好比,被訓練識別照片中的狗的深度神經網絡,能夠用包含或者不包含狗的照片進行測試。)

至於信息瓶頸是否是在全部深度學習中都存在,或者說有沒有除了壓縮之外的其它泛化方式,還有待近進一步考察。有些 AI 專家評價 Tishby 的想法是近來深度學習的重要理論洞察之一。哈佛大學的 AI 研究員和理論神經學家 Andrew Saxe 提出,大型深度神經網絡並不須要冗長的壓縮狀態進行泛化。取而代之,研究員使用提早中止法(early stopping)以切斷訓練數據,防止網絡對數據編碼過多的關聯。

Tishby 論證道 Saxe 和其同事分析的神經網絡模型不一樣於標準的深度神經網絡架構,但儘管如此,信息瓶頸理論範圍比起其它方法更好地定義了這些網絡的泛化能力。而在大型神經網絡中是否存在信息瓶頸,Tishby 和 Shwartz-Ziv 最近的實驗中部分涉及了這個問題,而在他們最初的文章中沒有提過。他們在實驗中經過包含 60,000 張圖片的國家標準與技術局(National Institute of Standards and Technology)(http://yann.lecun.com/exdb/mnist/)的已完善數據集(被視爲測量深度學習算法的基準)訓練了 330,000 個鏈接的深度神經網絡以識別手寫體數字。他們觀察到,網絡中一樣出現了收斂至信息瓶頸理論範圍的行爲,他們還觀察到了深度學習中的兩個確切的狀態,其轉換界限比起小型網絡甚至更加銳利而明顯。「我徹底相信了,這是一個廣泛現象。」Tishby 說道。


人類和機器

大腦從咱們的感知中篩選信號並將其提高到咱們的感知水平,這一奧祕促使 AI 先驅關注深度神經網絡,他們但願逆向構造大腦的學習規則。然而,AI 從業者在技術進步中大部分放棄了這條路徑,轉而追尋與生物合理性幾乎不相關的方法來提高性能。可是,因爲他們的思考機器取得了很大的成績,甚至引發「AI 可能威脅人類生存」的恐懼,不少研究者但願這些探索可以提供對學習和智能的洞察。

紐約大學心理學和數據科學助理教授 Brenden Lake 研究人類和機器學習方式的異同,他認爲 Tishby 的研究成果是『打開神經網絡黑箱的重要一步』,可是他強調大腦展現了一個更大、更黑的黑箱。成年人大腦包含 860 億神經元之間的數百萬億鏈接,可能具有不少技巧來提高泛化,超越嬰兒時期的基本圖像識別和聲音識別學習步驟,這些步驟可能在不少方面與深度學習相似。

好比,Lake 說根據他的研究,Tishby 確認的擬合和壓縮詞組看起來與孩子學習手寫字的方式並不相同。孩子們並不須要看數千個字並通過一段時間的壓縮心理表徵,才能認識那個字,並學會寫字。事實上,他們能夠從單同樣本中進行學習。Lake 及其同事製做的模型說明大腦能夠將一個新的字解構成一系列筆畫(先前存在的心理建構),使這個字的概念附加到先前知識之上。「並不是像標準機器學習算法那樣,把字的圖像看成像素塊,把概念當成特徵映射進行學習。」Lake 解釋道,「個人目的是構建該字的簡單因果模型。」一種致使泛化的更短路徑。

如此聰明的想法有助於人工智能社區增加經驗,進一步增強兩個領域的溝通。Tishby 相信信息瓶頸理論最終將會在兩個學科發揮做用,即便它採起了一種在人類學習(而不是人工智能)中更廣泛的形式。從該理論中,咱們能夠更好地理解哪些問題可被人類或人工智能解決。Tishby 說:「它給出了能夠學習的問題的完整描述,在這些問題中我能夠去除輸入中的噪音而無損於個人分類能力。這是一個天然的視覺問題,語音識別。這也正是人腦能夠應對的問題。」

同時,人類和人工神經網絡很難解決每個細節都很重要以及細微差異影響結果的問題。例如,大多數人沒法快速心算兩個大數字相乘的結果。「咱們有一大堆這樣的問題,對於變量的細微變化很是敏感的邏輯問題。」Tishby 說道。「分類問題、離散問題、加密問題。我不認爲深度學習會幫助咱們破解密碼。」

泛化——測量信息瓶頸,或許意味着咱們會喪失一些細節。這對於運行中的計算並不友好,但它並非大腦的主要任務。咱們在人羣中找到熟悉的面孔,在複雜內容中找到規律,並在充滿噪聲的世界裏提取有用的信息。



原文連接:https://www.quantamagazine.org/new-theory-cracks-open-the-black-box-of-deep-learning-20170921/


選自QuantaMagazine

做者:Natalie Wolchover

機器之心編譯

參與:黃小天、劉曉坤、路雪

相關文章
相關標籤/搜索