機器學習中的熵、條件熵、相對熵和交叉熵

時間 2019-12-05

標籤機器學習條件相對交叉简体版

原文原文鏈接

轉載自 http://www.javashuo.com/article/p-uuszunnd-hq.html

一、信息熵 (information entropy)

熵 (entropy) 這一詞最初來源於熱力學。1948年，克勞德·愛爾伍德·香農將熱力學中的熵引入信息論，因此也被稱爲香農熵 (Shannon entropy)，信息熵 (information entropy)。本文只討論信息熵。首先，咱們先來理解一下信息這個概念。信息是一個很抽象的概念，百度百科將它定義爲：指音訊、消息、通信系統傳輸和處理的對象，泛指人類社會傳播的一切內容。那信息能夠被量化麼？能夠的！香農提出的「信息熵」概念解決了這一問題。html

一條信息的信息量大小和它的不肯定性有直接的關係。咱們須要搞清楚一件很是很是不肯定的事，或者是咱們一無所知的事，就須要瞭解大量的信息。相反，若是咱們對某件事已經有了較多的瞭解，咱們就不須要太多的信息就能把它搞清楚。因此，從這個角度，咱們能夠認爲，信息量的度量就等於不肯定性的多少。好比，有人說廣東下雪了。對於這句話，咱們是十分不肯定的。由於廣東幾十年來下雪的次數寥寥無幾。爲了搞清楚，咱們就要去看天氣預報，新聞，詢問在廣東的朋友，而這就須要大量的信息，信息熵很高。再好比，中國男足進軍2022年卡塔爾世界盃決賽圈。對於這句話，由於肯定性很高，幾乎不須要引入信息，信息熵很低。算法

考慮一個離散的隨機變量 $x$ 機器學習

由於兩個事件是獨立不相關的，所以 $p (x, y) = p (x) p (y)$ 函數

$I (x) = - l o g p (x)$ 學習

其中負號是用來保證信息量是正數或者零。而 $l o g$ （信息論中基經常選擇爲2，所以信息的單位爲比特bits；而機器學習中基經常選擇爲天然常數，所以單位經常被稱爲奈特nats）。 $I (x)$ 編碼

最後，咱們正式引出信息熵。如今假設一個發送者想傳送一個隨機變量的值給接收者。那麼在這個過程當中，他們傳輸的平均信息量能夠經過求 $I (x) = - l o g p (x)$ atom

$H (X) = - \sum_{x} p (x) l o g p (x) = - \sum_{i = 1}^{n} p (x_{i}) l o g p (x_{i})$ spa

$H (X)$ .net

從公式可得，隨機變量的取值個數越多，狀態數也就越多，信息熵就越大，混亂程度就越大。當隨機分佈爲均勻分佈時，熵最大，且 $0 \leq H (X) \leq l o g n$ code

$H (X, Y) = - \sum_{x, y} p (x, y) l o g p (x, y) = - \sum_{i = 1}^{n} \sum_{j = 1}^{m} p (x_{i}, y_{i}) l o g p (x_{i}, y_{i})$

注意點：一、熵只依賴於隨機變量的分佈,與隨機變量取值無關，因此也能夠將 $X$

那麼這些定義有着什麼樣的性質呢？考慮一個隨機變量 $x$

如今考慮一個具備4種可能的狀態 ${a, b, c, d}$

這種情形下的熵爲：

$H (X) = - \frac{1}{2} l o g_{2} \frac{1}{2} - \frac{1}{4} l o g_{2} \frac{1}{4} - \frac{1}{8} l o g_{2} \frac{1}{8} - \frac{1}{8} l o g_{2} \frac{1}{8} = 1.75 b i t s$

咱們能夠看到，非均勻分佈比均勻分佈的熵要小。如今讓咱們考慮如何把變量狀態的類別傳遞給接收者。與以前同樣，咱們可使用一個2比特的數字來完成這件事情。然而，咱們能夠利用非均勻分佈這個特色，使用更短的編碼來描述更可能的事件，使用更長的編碼來描述不太可能的事件。咱們但願這樣作可以獲得一個更短的平均編碼長度。咱們可使用下面的編碼串（哈夫曼編碼）：0、十、1十、111來表示狀態 ${a, b, c, d}$

average code length = $\frac{1}{2} \times 1 + \frac{1}{4} \times 2 + 2 \times \frac{1}{8} \times 3 = 1.75 b i t s$

這個值與上方的隨機變量的熵相等。熵和最短編碼長度的這種關係是一種廣泛的情形。Shannon 編碼定理https://baike.baidu.com/item/Shannon%20%E7%BC%96%E7%A0%81%E5%AE%9A%E7%90%86/15585931?fr=aladdin 代表熵是傳輸一個隨機變量狀態值所需的比特位下界（最短平均編碼長度）。所以，信息熵能夠應用在數據壓縮方面。這裏這篇文章http://www.ruanyifeng.com/blog/2014/09/information-entropy.html講的很詳細了，我就不贅述了。

證實 $0 \leq H (X) \leq l o g n$

利用拉格朗日乘子法證實：

由於 $p (1) + p (2) + \dots + p (n) = 1$

因此有

目標函數： $f (p (1), p (2), \dots, p (n)) = - (p (1) l o g p (1) + p (2) l o g p (2) + \dots + p (n) l o g p (n))$

約束條件： $g (p (1), p (2), \dots, p (n), λ) = p (1) + p (2) + \dots + p (n) - 1 = 0$

　　一、定義拉格朗日函數：

$L (p (1), p (2), \dots, p (n), λ) = - (p (1) l o g p (1) + p (2) l o g p (2) + \dots + p (n) l o g p (n)) + λ (p (1) + p (2) + \dots + p (n) - 1)$

　　二、 $L (p (1), p (2), \dots, p (n), λ)$

$λ - l o g (e \cdot p (1)) = 0$

$λ - l o g (e \cdot p (2)) = 0$

$\dots \dots$

$λ - l o g (e \cdot p (n)) = 0$

$p (1) + p (2) + \dots + p (n) - 1 = 0$

　　三、求出 $p (1), p (2), \dots, p (n)$

解方程得， $p (1) = p (2) = \dots = p (n) = \frac{1}{n}$

代入 $f (p (1), p (2), \dots, p (n))$

由此可證 $l o g n$

二、條件熵 (Conditional entropy)

條件熵 $H (Y | X)$

$H (Y | X) = H (X, Y) - H (X)$

舉個例子，好比環境溫度是低仍是高，和我穿短袖仍是外套這兩個事件能夠組成聯合機率分佈 $H (X, Y)$

$H (Y | X) = H (X, Y) - H (X)$

所以，能夠這樣理解，描述 $X$ 。關於條件熵的例子能夠看這篇文章，講得很詳細。https://zhuanlan.zhihu.com/p/26551798

三、相對熵 (Relative entropy)，也稱KL散度 (Kullback–Leibler divergence)

設 $p (x)$

$D_{K L} (p | | q) = \sum_{x} p (x) l o g \frac{p (x)}{q (x)} = E_{p (x)} l o g \frac{p (x)}{q (x)}$

性質：

一、若是 $p (x)$

二、 $D_{K L} (p | | q) \neq D_{K L} (q | | p)$

三、 $D_{K L} (p | | q) \geq 0$

由於：

$\sum_{x} p (x) = 1$

因此：

$D_{K L} (p | | q) \geq 0$

總結：相對熵能夠用來衡量兩個機率分佈之間的差別，上面公式的意義就是求 $p$ 。

四、交叉熵 (Cross entropy)

如今有關於樣本集的兩個機率分佈 $p (x)$

$H (p) = \sum_{x} p (x) l o g \frac{1}{p (x)}$

若是使用非真實分佈 $q (x)$

$H (p, q) = \sum_{x} p (x) l o g \frac{1}{q (x)}$ 。（由於用 $q (x)$

咱們再化簡一下相對熵的公式。 $D_{K L} (p | | q) = \sum_{x} p (x) l o g \frac{p (x)}{q (x)} = \sum_{x} p (x) l o g p (x) - p (x) l o g q (x)$

有沒有發現什麼？

熵的公式 $H (p) = - \sum_{x} p (x) l o g p (x)$

交叉熵的公式 $H (p, q) = \sum_{x} p (x) l o g \frac{1}{q (x)} = - \sum_{x} p (x) l o g q (x)$

因此有：

$D_{K L} (p | | q) = H (p, q) - H (p)$

又由於 $D_{K L} (p | | q) \geq 0$

因此 $H (p, q) \geq H (p)$

而且當 $H (p)$ 。

在機器學習中，咱們但願在訓練數據上模型學到的分佈 $P (m o d e l)$ 。可是咱們沒有真實數據的分佈，因此只能但願模型學到的分佈 $P (m o d e l)$

但願學到的模型的分佈和真實分佈一致， $P (m o d e l) ≃ P (r e a l)$
可是真實分佈不可知，假設訓練數據是從真實數據中獨立同分布採樣的， $P (t r a i n) ≃ P (r e a l)$
所以，咱們但願學到的模型分佈至少和訓練數據的分佈一致， $P (t r a i n) ≃ P (m o d e l)$

根據以前的描述，最小化訓練數據上的分佈 $P (t r a i n)$

五、總結

信息熵是衡量隨機變量分佈的混亂程度，是隨機分佈各事件發生的信息量的指望值，隨機變量的取值個數越多，狀態數也就越多，信息熵就越大，混亂程度就越大。當隨機分佈爲均勻分佈時，熵最大；信息熵推廣到多維領域，則可獲得聯合信息熵；條件熵表示的是在 $X$
相對熵能夠用來衡量兩個機率分佈之間的差別。
交叉熵能夠來衡量在給定的真實分佈下，使用非真實分佈所指定的策略消除系統的不肯定性所須要付出的努力的大小。