熵是一個很常見的名詞,在物理上有重要的評估意義,天然語言處理的預備知識中,熵做爲信息論的基本和重點知識,在這裏我來記錄一下學習的總結,並以此與你們分享。html
熵也被稱爲自信息,描述一個隨機變量的不肯定性的數量。熵越大,代表不肯定性越大,所包含的信息量也越大,就說明很難去預測事件行爲或者正確估值。
熵的公式定義:app
解答:機器學習
這裏計算將相同機率的字符合並計算,結果代表什麼呢?
結果說明傳輸一個字符平均只須要2.5個比特:學習
字符 | a | b | c | d | e | f |
---|---|---|---|---|---|---|
編碼 | 100 | 00 | 101 | 01 | 110 | 111 |
聯和熵描述一對隨機變量平均所須要的信息量。公式定義:測試
與之聯繫密切的條件熵指的是:給定X的狀況下,Y的條件熵爲:編碼
將以上公式(1)化簡能夠獲得 H(X,Y)=H(X)+H(Y∣X) 公式(4),被稱爲熵的連鎖規則。spa
熵的連鎖規則H(X,Y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y), 因此H(X)−H(X∣Y)=H(Y)−H(Y∣X),這個差就成爲互信息,記做I(X;Y) 。.net
在圖中I(X;Y)反映的是已知Y的值後X的不確定性的減少量。在圖中I(X;Y)反映的是已知Y的值後X的不肯定性的減小量。在圖中I(X;Y)反映的是已知Y的值後X的不確定性的減少量。簡而言之,Y的值透露了多少關於X的信息量。
由於H(X|X)=0,因此H(X)=H(X)-H(X|X)=I(X;X),這公式推導說明了熵也成爲自信息的概念,也說明兩個徹底相互依賴的變量之間的互信息並非一個常量,而是取決定於它們的熵。
實際應用: 互信息描述了兩個隨機變量之間的統計相關性,平均互信息是非負的,在NLP中用來判斷兩個對象之間的關係,好比:根據主題類別和詞彙之間的互信息進行特徵提取。另外在詞彙聚類、漢語自動分詞、詞義消岐、文本分類等問題有着重要用途。設計
相對熵簡稱KL差別或KL距離,衡量相同時間空間裏兩個機率分佈相對差別的測度。3d
根據公式可知,當兩個隨機分佈徹底相同時,即p=q,其相對熵爲0。當兩個隨機分佈差異增長,相對熵的指望值也增大。
相對熵與互信息的聯繫以下證實:
交叉熵就是機器學習中常常提到的一種熵的計算。它究竟是什麼呢?
交叉熵是衡量估計模型與真實機率分佈之間之間差別狀況。
若是一個隨機變量X~p(x),q(x)爲用於近似p(x)的機率分佈,則實際p與模型q之間的交叉熵定義爲:
在設計模型q時候,目的是使交叉熵最小,這樣模型的表現更好,從而使模型更接近最真實的機率分佈p(x),通常的,當樣本足夠大時候,上面計算近似爲:
在設計語言模型,一般用困惑度(perplexity)來代替交叉熵衡量語言模型的好壞。
因此,尋找困惑度最小的模型成爲模型設計的任務,一般指的是模型對於測試數據的困惑度。
在信息論的熵部分,咱們學到了什麼呢?開始說到,這是NLP基礎,也是入門機器學習的重要理論部分。
學習以後的一些記錄,發現這部分知識在其餘方面常常說起到,殊不知其原理知識,所以作了一個簡單的總結備忘,與爾共享!
更好的閱讀體驗請轉至個人CSDN博客哦!
個人CSDN博客:熵、聯和熵與條件熵、交叉熵與相對熵是什麼呢?來這裏有詳細解讀!
個人博客園:熵、聯和熵與條件熵、交叉熵與相對熵是什麼呢?詳細解讀這裏有!
————————————————版權聲明:本文爲CSDN博主「Charzous」的原創文章,遵循CC 4.0 BY-SA版權協議,轉載請附上原文出處連接及本聲明。原文連接:https://blog.csdn.net/Charzous/article/details/107669211