AI 的舅老爺香農,是如何影響了今天的深度學習?

https://mp.weixin.qq.com/s/tgLfQocAmy8bS3Dquwty3g算法

By 超神經

場景描述:今天寫的這位長者,也是位不得了的人物——香農,學界尊稱他爲「信息科學之父」。香農的信息論裏的一些貢獻,也實際影響了AI 的發展,在深度學習大行其道的今天,促生了許多實際的應用。

關鍵詞:信息論  深度學習  熵   互信息

AI 的舅老爺香農,是如何影響了今天的深度學習?
青年香農時的俊朗自信,仍是發明家愛迪生的遠方親戚網絡

不少年前的昨天,一位改變世界的人誕生了。1916 年的 4 月 30 日,克勞德·香農出生於美國密歇根州一個叫作 Gaylord 的小鎮。機器學習

此時的圖靈遠在英國,已經成長到四歲。香農在 1936 年得到密歇根大學的數學與電氣工程學士學位 。1940 年在 MIT 得到數學碩士和博士學位,1941 年進入貝爾實驗室工做。ide

相比於人工智能之父圖靈天才卻坎坷的一輩子,香農的人生更加順遂一些,他於 2001 年 2 月 26 日去世,享年 84歲。函數

而香農對人人工智能實業的推進之大,尊稱他爲「人工智能之舅老爺」也並不爲過。學習

舅老爺對 AI 事業的鼎力相助

香農與 AI 的淵源,其實從「Artificial Intelligence( AI )」誕生的達特茅斯會議,就已經開始了。在 1956 年的這個誕生了 AI 的會議上,香農做爲發起人而名垂史冊。編碼

香農最牛的成就,也許要算他所開創的信息論,這一成果不僅僅是信息通訊科學的基石,也是今日火熱的深度學習的重要理論依據。人工智能

信息論綜合運用了微積分、機率論和統計學等諸多學科,在深度學習中,也起到了很是重要的做用,好比:翻譯

  • 常見的交叉熵損失函數;
  • 在最大信息增益的基礎上構建決策樹;
  • 在 NLP 和演講中普遍使用的 Viterbi 算法;
  • 在機器翻譯中經常使用的 RNN 和各類類型的模型中廣泛使用的編碼器和解碼器;

信息量大不大?靠的是香農大神

來看下面兩個句子:3d

「Bruno 是條狗。」
「Bruno 是一條棕色的大狗。」

很明顯,這兩個句子傳達出的信息量不一樣,跟第一句話相比,第二句話信息量更豐富,不只告訴咱們 Bruno 是條狗,還告訴咱們狗的毛色和體型。

但就這兩個簡單句子,在 20 世紀早期,讓科學家和工程師們最頭疼的問題。

他們但願量化這些信息之間的差別,並從數學角度來對這些信息進行描述。

遺憾的是,當時並無一種現成的分析方法,或數學方法能夠作到這一點。

以後,科學家們一直在苦尋這個問題的答案,但願從數據的語義等方面找到答案。但結果證實,這樣的研究除了增長問題的複雜性,再無它用。

直到香農,做爲一個數學家兼工程師,在該問題上引入「熵」的概念後。信息的量化度量問題終於獲得解決,這也標誌着咱們開始進入「數字信息時代」。

AI 的舅老爺香農,是如何影響了今天的深度學習?

香農並無把精力花在對數據的語義研究上,而是經過幾率分佈和「不肯定性」來量化信息,並引入「bit」概念來度量信息量。

他認爲,當涉及到信息內容時,數據的語義並不重要。

這一革命性的思想不只爲信息理論奠基了基礎,也爲人工智能等領域的發展開闢了新的道路。所以,克勞德·香農,也被公認爲信息時代之父。

深度學習中的常見元素:熵

信息論應用場景衆多,這裏咱們主要看看它在深度學習和數據科學領域四種比較常見的應用。

熵(Entropy)
又叫信息熵或香農熵,用於度量具備不肯定的結果,咱們能夠經過下面兩個實驗來理解:

  • 拋一枚均勻的硬幣,使得結果出現機率爲 0.5;
  • 拋一枚存在誤差的硬幣,使結果出現機率爲 0.99;

很明顯,跟實驗 1 相比,咱們更容易預測實驗 2 的結果。所以,從結果來看,實驗1 比實驗 2 更具不肯定性,而熵就是專門用來度量這個不肯定性。

若是實驗結果的不肯定性越多,那麼它的熵就越高,反之就越低。

一個徹底能夠確定結果的肯定性實驗中,熵爲零。在一個徹底隨機的實驗中,好比公平的骰子,每種結果都存在很大的不肯定性,其熵就會很大。

另外一種肯定熵的方法是,把觀察隨機實驗結果時得到的平均信息,作爲定義熵的函數。結果越少,觀察到的信息也就越少,熵就越小。

例如,在肯定性實驗中,咱們老是知道結果,因此從觀察結果中沒有獲得新的信息,所以熵爲零。

數學公式
對於一個離散的隨機變量 X,可能產生的結果記作 x_1,…,x_n ,則熵的計算公式以下(熵用 H 表示,單位 bit ):
AI 的舅老爺香農,是如何影響了今天的深度學習?
其中,p(x_i) 是變量 X 所產生的結果的機率。

應用

  • 構建自動決策樹,在構建過程當中,全部功能的選擇均可以使用熵的標準來完成。

  • 熵越大,信息量也就越多,也就更具預測價值。能夠據此從相互競爭的兩個模型中找出最有價值的模型,即熵最高的模型。

深度學習中常見的重要元素:交叉熵

交叉熵(Cross-Entropy)
定義:交叉熵主要用於度量兩個機率分佈間的差別性信息,它能夠告訴咱們這兩個機率有多類似。

數學公式
在同一個樣本中定義的兩個機率p和q的交叉熵計算公式爲(熵用 H 表示,單位bit ):
AI 的舅老爺香農,是如何影響了今天的深度學習?

應用

  • 交叉熵損失函數普遍應用於Logistic迴歸等分類模型。當預測偏離真實輸出時,交叉熵損失函數增長。

  • 在像CNN這樣的深度學習體系結構中,最終輸出的「softmax」層常用交叉熵損失函數。
    AI 的舅老爺香農,是如何影響了今天的深度學習?
    圖注:基於 CNN 的分類器一般把 softmax 層做爲最終層,使用交叉熵損失函數進行訓練

深度學習中常見的重要元素:互信息

互信息(Mutual Information)

定義互信息用來度量兩個機率分佈或隨機變量之間相互依賴程度,簡單來說就是一個變量有多少信息被另外一個變量攜帶。

互信息捕獲的隨機變量之間的相關性,不一樣於通常性相關僅侷限在線性領域,它還能夠捕獲一些非線性相關信息,其應用範圍也更廣。

數學公式
兩個離散隨機變量 X 和 Y 的互信息公式爲:
AI 的舅老爺香農,是如何影響了今天的深度學習?
其中p(x,y)爲x和y的聯合機率分佈,p(x)和p(y)分別爲x和y的邊際機率分佈。

應用

  • 特徵選擇:互信息不只能夠捕捉線性相關,還能關注到非線性相關,在進行特徵選擇時更全面,準確度也更高。

  • 在貝葉斯網絡中,互信息被用來學習隨機變量之間的關係結構,並定義這些關係的強度。
    AI 的舅老爺香農,是如何影響了今天的深度學習?
    圖注:在貝葉斯網絡中,變量之間的關係結構可使用互信息來肯定

深度學習中常見的重要元素:KL散度

KL 散度(Kullback–Leibler divergence)
KL 散度又叫相對熵,用來衡量兩個機率分佈的偏離程度。

假設咱們須要的數據在真實分佈 P 裏,但咱們不知道這個 P,這時咱們能夠新建機率分佈 Q,來擬合真實分佈 P。

因爲 Q 裏面的數據只近似於 P,所以 Q 沒有 P 精確。因此,Q 相對於 P 而言,會出現部分信息丟失的狀況,這部分丟失的信息量就由 KL 散度度量。

KL 散度能夠告訴咱們,當咱們決定使用 Q( P 的近似數據)時,咱們將損失多少信息。KL 散度越趨近於零,Q 裏面的數據也就越接近於 P。

數學公式

一個機率分佈Q與另外一個機率分佈P的KL散度的數學公式爲:
AI 的舅老爺香農,是如何影響了今天的深度學習?

應用

KL 散度目前多用於無監督機器學習系統中的 VAE(變分自動編碼器)。

1948年,克勞德·香農在獨具開創性的論文《通訊的數學理論》中正式提出「信息論」,開啓一個新時代。現在,信息論已經被普遍使用於機器學習、深度學習和數據科學等諸多領域。

小彩蛋:第一屆香農獎

你們都知道,計算機界最高榮譽獎項是圖靈獎。圖靈獎是 1966 年起,由美國計算機學會爲了記念圖靈的卓越貢獻而設立。一樣,在信息領域中香農獎的地位一樣重要。

不同的是,圖靈早在 1954 年就去世了,圖靈大神並無機會知道世人爲他設置了這個獎項。

而香農則幸運得多,香農獎由 IEEE 學會在 1972 年設立,爲了表彰在信息論領域有着卓越貢獻的科學家和工程師,在第一屆裏,香農本身領取了香農獎。

AI 的舅老爺香農,是如何影響了今天的深度學習?
「香農得到香農獎,史稱香農套路」

超神經小百科

香農的趣聞

除了學術研究,香農愛好雜耍、騎獨輪腳踏車和下棋。香農在不少場合都正式表演過雜耍。他還和圖靈有過棋局上的交鋒(這裏說的是國際象棋)。

香農發明了不少用於科學展覽的設備,好比火箭動力飛行光盤、一個電動彈簧高蹺和一個噴射小號。

香農的辦公桌上放着一個他稱之爲「終極機器」的盒子,這是香農衆多好玩的發明之一,是根據人工智能研究的先驅、數學家馬文·閔斯基提出的想法而作出來的。這個盒子外表平淡無奇,只是在一側有一個開關,彈一下開關,盒蓋就會打開,一個機械手會伸出來;將開關復原,機械手就縮回盒子。

香農還作了一個設備可以自動復原魔方。

香農和愛德華·索普一塊兒發明了第一個佩戴式計算機,這個佩戴式計算機是用於提升輪盤賭的獲勝概率。

「本部份內容參考自維基百科」
AI 的舅老爺香農,是如何影響了今天的深度學習?

相關文章
相關標籤/搜索