熵、聯和熵與條件熵、交叉熵與相對熵是什麼呢?詳細解讀這裏有!

熵是一個很常見的名詞,在物理上有重要的評估意義,天然語言處理的預備知識中,熵做爲信息論的基本和重點知識,在這裏我來記錄一下學習的總結,並以此與你們分享。html

信息論基本知識

一、熵

二、聯和熵與條件熵

三、互信息

四、交叉熵與相對熵

五、困惑度

六、總結

一、熵

熵也被稱爲自信息,描述一個隨機變量的不肯定性的數量。熵越大,代表不肯定性越大,所包含的信息量也越大,就說明很難去預測事件行爲或者正確估值。
熵的公式定義:app

解答:機器學習

 

這裏計算將相同機率的字符合並計算,結果代表什麼呢?
結果說明傳輸一個字符平均只須要2.5個比特:學習

字符 a b c d e f
編碼 100 00 101 01 110 111

二、聯和熵與條件熵

聯和熵描述一對隨機變量平均所須要的信息量。公式定義:
測試

 與之聯繫密切的條件熵指的是:給定X的狀況下,Y的條件熵爲:編碼

 

 將以上公式(1)化簡能夠獲得 H(X,Y)=H(X)+H(YX) 公式(4),被稱爲熵的連鎖規則。
spa

三、互信息

熵的連鎖規則H(X,Y)=H(X)+H(YX)=H(Y)+H(XY), 因此H(X)H(XY)=H(Y)H(YX),這個差就成爲互信息,記做I(X;Y) 。.net

I(X;Y)YX在圖中I(X;Y)反映的是已知Y的值後X的不肯定性的減小量。I(X;Y)YX。簡而言之,Y的值透露了多少關於X的信息量。
由於H(X|X)=0,因此H(X)=H(X)-H(X|X)=I(X;X),這公式推導說明了熵也成爲自信息的概念,也說明兩個徹底相互依賴的變量之間的互信息並非一個常量,而是取決定於它們的熵。
實際應用: 互信息描述了兩個隨機變量之間的統計相關性,平均互信息是非負的,在NLP中用來判斷兩個對象之間的關係,好比:根據主題類別和詞彙之間的互信息進行特徵提取。另外在詞彙聚類、漢語自動分詞、詞義消岐、文本分類等問題有着重要用途。
設計

四、交叉熵與相對熵

相對熵簡稱KL差別或KL距離,衡量相同時間空間裏兩個機率分佈相對差別的測度。3d

根據公式可知,當兩個隨機分佈徹底相同時,即p=q,其相對熵爲0。當兩個隨機分佈差異增長,相對熵的指望值也增大。
相對熵與互信息的聯繫以下證實:

相對熵證實
交叉熵就是機器學習中常常提到的一種熵的計算。它究竟是什麼呢?

交叉熵是衡量估計模型與真實機率分佈之間之間差別狀況。
若是一個隨機變量X~p(x),q(x)爲用於近似p(x)的機率分佈,則實際p與模型q之間的交叉熵定義爲:

 

在設計模型q時候,目的是使交叉熵最小,這樣模型的表現更好,從而使模型更接近最真實的機率分佈p(x),通常的,當樣本足夠大時候,上面計算近似爲:

五、困惑度

在設計語言模型,一般用困惑度(perplexity)來代替交叉熵衡量語言模型的好壞。

 

因此,尋找困惑度最小的模型成爲模型設計的任務,一般指的是模型對於測試數據的困惑度。

六、總結

在信息論的熵部分,咱們學到了什麼呢?開始說到,這是NLP基礎,也是入門機器學習的重要理論部分。

  1. (自信息):描述一個隨機變量的不肯定性的數量。熵越大,代表不肯定性越大,所包含的信息量也越大,就說明很難去預測事件行爲或者正確估值。
  2. 聯和熵:描述一對隨機變量平均所須要的信息量。
  3. 條件熵:給定X的狀況下,經過聯和熵計算Y的條件熵,相似於條件機率思想。由此引出互信息概念。
  4. 相對熵:簡稱KL差別或KL距離,衡量相同時間空間裏兩個機率分佈相對差別的測度,與互信息密切相關。
  5. 交叉熵:衡量估計模型與真實機率分佈之間之間差別狀況。

學習以後的一些記錄,發現這部分知識在其餘方面常常說起到,殊不知其原理知識,所以作了一個簡單的總結備忘,與爾共享!

更好的閱讀體驗請轉至個人CSDN博客哦!


個人CSDN博客:熵、聯和熵與條件熵、交叉熵與相對熵是什麼呢?來這裏有詳細解讀!

個人博客園:熵、聯和熵與條件熵、交叉熵與相對熵是什麼呢?詳細解讀這裏有!

————————————————版權聲明:本文爲CSDN博主「Charzous」的原創文章,遵循CC 4.0 BY-SA版權協議,轉載請附上原文出處連接及本聲明。原文連接:https://blog.csdn.net/Charzous/article/details/107669211

相關文章
相關標籤/搜索