在機率論和信息論中,兩個隨機變量的互信息(Mutual Information,簡稱MI)或轉移信息(transinformation)是變量間相互依賴性的量度。不一樣於相關係數,互信息並不侷限於實值隨機變量,它更加通常且決定着聯合分佈 p(X,Y) 和分解的邊緣分佈的乘積 p(X)p(Y) 的類似程度。互信息(Mutual Information)是度量兩個事件集合之間的相關性(mutual dependence)。互信息是點間互信息(PMI)的指望值。互信息最經常使用的單位是bit。
1.互信息的定義
正式地,兩個離散隨機變量 X 和 Y 的互信息能夠定義爲:
其中 p(x,y) 當前是 X 和 Y 的聯合機率密度函數,而p(x)和p(y)分別是 X 和 Y 的邊緣機率密度函數。
互信息量I(xi;yj)在聯合機率空間P(XY)中的統計平均值。 平均互信息I(X;Y)克服了互信息量I(xi;yj)的隨機性,成爲一個肯定的量。若是對數以 2 爲基底,互信息的單位是bit。
直觀上,互信息度量 X 和 Y 共享的信息:它度量知道這兩個變量其中一個,對另外一個不肯定度減小的程度。例如,若是 X 和 Y 相互獨立,則知道 X 不對 Y 提供任何信息,反之亦然,因此它們的互信息爲零。在另外一個極端,若是 X 是 Y 的一個肯定性函數,且 Y 也是 X 的一個肯定性函數,那麼傳遞的全部信息被 X 和 Y 共享:知道 X 決定 Y 的值,反之亦然。所以,在此情形互信息與 Y(或 X)單獨包含的不肯定度相同,稱做 Y(或 X)的熵。並且,這個互信息與 X 的熵和 Y 的熵相同。(這種情形的一個很是特殊的狀況是當 X 和 Y 爲相同隨機變量時。)
互信息是 X 和 Y 聯合分佈相對於假定 X 和 Y 獨立狀況下的聯合分佈之間的內在依賴性。因而互信息如下面方式度量依賴性:I(X; Y) = 0 當且僅當 X 和 Y 爲獨立隨機變量。從一個方向很容易看出:當 X 和 Y 獨立時,p(x,y) = p(x) p(y),所以:
此外,互信息是非負的(即 I(X;Y) ≥ 0; 見下文),並且是對稱的(即 I(X;Y) = I(Y;X))。
2.平均互信息量的物理含義
(1)觀察者站在輸出端
H(X/Y) —信道疑義度/損失熵.。Y關於X的後驗不肯定度。表示收到變量Y後,對隨機變量X仍然存在的不肯定度。表明了在信道中損失的信息。
H(X) —X的先驗不肯定度/無條件熵。
I(X;Y)—收到Y先後關於X的不肯定度減小的量。從Y得到的關於X的平均信息量。
(2)觀察者站在輸入端
H(Y/X)—噪聲熵。表示發出隨機變量X後, 對隨機變量Y仍然存在的平均不肯定度。若是信道中不存在任何噪聲, 發送端和接收端必存在肯定的對應關係, 發出X後必能肯定對應的Y, 而如今不能徹底肯定對應的Y, 這顯然是由信道噪聲所引發的。
I(Y;X) —發出X先後關於Y的先驗不肯定度減小的量。
(3)觀察者站在通訊系統整體立場上
H(XY)—聯合熵.表示輸入隨機變量X, 經信道傳輸到達信宿, 輸出隨機變量Y。即收,發雙方通訊後,整個系統仍然存在的不肯定度.
I(X;Y) —通訊先後整個系統不肯定度減小量。在通訊前把X和Y當作兩個相互獨立的隨機變量, 整個系統的先驗不肯定度爲X和Y的聯合熵H(X)+H(Y); 通訊後把信道兩端出現X和Y當作是由信道的傳遞統計特性聯繫起來的, 具備必定統計關聯關係的兩個隨機變量, 這時整個系統的後驗不肯定度由H(XY)描述。
以上三種不一樣的角度說明: 從一個事件得到另外一個事件的平均互信息須要消除不肯定度,一旦消除了不肯定度,就得到了信息。
3.平均互信息量的性質
(1)對稱性
I(X;Y)= I(Y;X)
由Y提取到的關於X的信息量與從X中提取到的關於Y的信息量是同樣的。 I(X;Y)和 I(Y;X)只是觀察者的立足點不一樣。
(2)非負性
I(X;Y)≥0
平均互信息量不是從兩個具體消息出發, 而是從隨機變量X和Y的總體角度出發, 並在平均意義上觀察問題, 因此平均互信息量不會出現負值。或者說從一個事件提取關於另外一個事件的信息, 最壞的狀況是0, 不會因爲知道了一個事件,反而使另外一個事件的不肯定度增長。
(3)極值性
I(X;Y)≤H(X)
I(Y;X)≤H(Y)
從一個事件提取關於另外一個事件的信息量, 至可能是另外一個事件的熵那麼多, 不會超過另外一個事件自身所含的信息量。當X和Y是一一對應關係時: I(X;Y)=H(X), 這時H(X/Y)=0。從一個事件能夠充分得到關於另外一個事件的信息, 從平均意義上來講, 表明信源的信息量可所有經過信道。當X和Y相互獨立時: H(X/Y) =H(X), I(Y;X)=0。 從一個事件不能獲得另外一個事件的任何信息,這等效於信道中斷的狀況。
(4) 凸函數性
平均互信息量是p(xi)和p(yj /xi)的函數,即I(X;Y)=f [p(xi), p(yj /xi)];
若固定信道,調整信源, 則平均互信息量I(X;Y)是p(xi)的函數,即I(X;Y)=f [p(xi)];
若固定信源,調整信道, 則平均互信息量I(X;Y)是p(yj /xi)的函數,即I(X;Y)=f [p (yj /xi)]。
平均互信息量I(X;Y)是輸入信源機率分佈p(xi)的上凸函數(concave function; or convext cap function)。
平均互信息量I(X;Y)是輸入轉移機率分佈p(yj /xi)的下凸函數(convext function; or convext cup function)。
(5)數據處理定理
串聯信道:在一些實際通訊系統中, 經常出現串聯信道。例如微波中繼接力通訊就是一種串聯信道。信宿收到數據後再進行數據處理, 數據處理系統可當作一種信道, 它與前面傳輸數據的信道構成串聯信道。
數據處理定理:當消息通過多級處理後,隨着處理器數目的增多,輸入消息與輸出消息之間的平均互信息量趨於變小。即
I(X;Z)≤I(X;Y)
I(X;Z)≤I(Y;Z)
其中假設Y條件下X和Z相互獨立。
兩級串聯信道輸入與輸出消息之間的平均互信息量既不會超過第Ⅰ級信道輸入與輸出消息之間的平均互信息量,也不會超過第Ⅱ級信道輸入與輸出消息之間的平均互信息量。
當對信號/數據/消息進行多級處理時, 每處理一次, 就有可能損失一部分信息, 也就是說數據處理會把信號/數據/消息變成更有用的形式, 可是毫不會創造出新的信息。這就是所謂的信息不增原理。
當已用某種方式取得Y後, 無論怎樣對Y進行處理, 所得到的信息不會超過I(X;Y)。每處理一次, 只會使信息量減小, 至多不變。也就是說在任何信息流通系統中, 最後得到的信息量,至可能是信源提供的信息。一旦在某一過程當中丟失了一些信息, 之後的系統無論怎樣處理, 若是不能接觸到丟失信息的輸入端, 就不能再恢復已丟失的信息。
4.與其餘量的關係
互信息又能夠等價地表示成
其中H(X)和H(Y) 是邊緣熵,H(X|Y)和H(Y|X)是條件熵,而H(X,Y)是X和Y的聯合熵。注意到這組關係和並集、差集和交集的關係相似,用Venn圖表示:
因而,在互信息定義的基礎上使用琴生不等式,咱們能夠證實 I(X;Y) 是非負的,所以H(X)>=H(X|Y),這裏咱們給出 I(X;Y) = H(Y) - H(Y|X) 的詳細推導:
上面其餘性質的證實相似。
直觀地說,若是把熵 H(Y) 看做一個隨機變量不肯定度的量度,那麼 H(Y|X) 就是 X 沒有涉及到的 Y 的部分的不肯定度的量度。這就是「在 X 已知以後 Y 的剩餘不肯定度的量」,因而第一個等式的右邊就能夠讀做「Y的不肯定度,減去在 X 已知以後 Y 的剩餘不肯定度的量」,此式等價於「移除知道 X 後 Y 的不肯定度的量」。這證明了互信息的直觀意義爲知道其中一個變量提供的另外一個的信息量(即不肯定度的減小量)。
注意到離散情形 H(X|X) = 0,因而 H(X) = I(X;X)。所以 I(X;X) ≥ I(X;Y),咱們能夠制定」一個變量至少包含其餘任何變量能夠提供的與它有關的信息「的基本原理。
互信息也能夠表示爲兩個隨機變量的邊緣分佈 X 和 Y 的乘積 p(x) × p(y) 相對於隨機變量的聯合熵 p(x,y) 的相對熵:
此外,令 p(x|y) = p(x, y) / p(y)。則
注意到,這裏相對熵涉及到僅對隨機變量 X 積分,表達式
如今以 Y 爲變量。因而互信息也能夠理解爲相對熵 X 的單變量分佈 p(x) 相對於給定 Y 時 X 的條件分佈 p(x|y) :分佈 p(x|y) 和 p(x) 之間的平均差別越大,信息增益越大。