一直就對機器學習中各類XX熵的概念比較模糊,如今總結一下本身的學習心得。html
信息量算法
先說一下信息量的概念,其實熵就是信息量的集合。app
摘抄個例子:機器學習
英文有26個字母,假設每一個字母出現的機率是同樣的,每一個字母的信息量就是 - log2 1/26 = 4.7(這就是個公式,如今不懂先不用管);經常使用的漢字有2500個,每一個漢字的信息量是 - log2 1/2500 =11.3。因此在信息量相同的狀況下,使用的漢字要比英文字母要少——這其實就是十六進制和二進制的區別,在這個例子中,apple成了5位26進制的數值,信息量4.7 * 5 = 23.5;而蘋果成爲2位2500進制的數值,信息量11.3 * 2 = 22.6。雖然表示的方式不一樣,但信息量差很少(這是一個很巧合的例子,僅用於說明信息量的含義,大多數詞語都不會這麼接近)。函數
個人理解是,英文中須要用23.5的二進制定位一個單詞,漢語中使用22.6個二進制定位一個單詞。學習
信息量是對應一個事件的熵,若想衡量一個系統有多少信息量,就要用到熵的概念。spa
信息量就是不肯定度,越是不能判斷將來有多少可能,信息度就越大。htm
熵blog
熵是用來衡量一個系統混論程度的物理量,表明一個系統中蘊含多少信息量,信息量越大代表一個系統不肯定性就越大,就存在越多的可能性。事件
熵(entropy)就用來衡量整個系統的整體信息量,其計算公式以下
至於這個公式怎麼導出的,比較麻煩,這裏能夠直觀的理解一下。
熵是平均信息量,也能夠理解爲不肯定性。例如進行決賽的巴西和南非,假設根據經驗判斷,巴西奪冠的概率是80%,南非奪冠的概率是20%,則誰能得到冠軍的信息量就變爲 - 0.8 * log2 0.8- 0.2 * log2 0.2 = 0.257 + 0.464 = 0.721,小於1 bit了。經驗減小了判斷所需的信息量,消除了不肯定性。
並且經過計算能夠發現,巴西奪冠的概率越高,計算出的熵就越小,即越是肯定的狀況,不肯定性越小,信息量越少。若是巴西100%奪冠,那麼熵是0,至關於沒有任何信息。當兩隊概率都是50%最難判斷,所熵達到最大值1。其實以前的 - log2 1/2= 1 bit 是簡化了的計算過程,其結果也是經過熵的公式來計算的 - 0.5 * log2 0.5 - 0.5* log2 0.5 = 1 bit,計算信息量要綜合考慮每種結果的可能性。
另外一個會迷惑的問題是熵會大於1嗎?答案固然是確定的,剛剛計算的最大值爲1bit,是由於最終的結果只有兩種狀況。在有四支球隊的時候,其最大值就是 - 0.25 * log20.25 - 0.25 * log2 0.25 - 0.25 * log2 0.25 - 0.25 * log2 0.25 =2 bit,當四支球隊奪冠機率不等的時候,熵會小於2 bit。
我記得有個公式能夠計算最大熵,在哪裏?
用處:決策樹ID3和C4.5算法中,使用熵做爲選擇決策點的標準。
最大熵
就是在系統均衡的時候,系統的熵最大。
聯合熵(KL距離,交叉熵)
個人理解,聯合熵是爲了導出條件熵和互信息的一個定義,
性質:
大於每一個獨立的熵
2個變量的聯合熵大於或等於這2個變量中任一個的獨立熵。
少於獨立熵的和
2個變量的聯合熵少於或等於2個變量的獨立熵之和。這是次可加性的一個例子。該不等式有且只有在和均爲統計獨立的時候相等。
這代表,兩個變量關聯以後不肯定性會增大,可是又因爲相互有制約關係,不肯定小於單獨兩個變量的不肯定度之和。
條件熵
性質:
就是在事件X的前提下,事件Y的熵,
用處:決策樹的特徵選擇,實際上使用的信息增益,就是用G(D,A)=H(Y)-H(Y|X)。能夠看出在X的條件下,Y的不肯定度降低了多少。
相對熵
也叫交叉熵。
相對熵越大,兩個函數差別越大;反之,相對熵越小,兩個函數差別越小。
用處:在聚類算法中,使用相對熵代替歐幾里得距離,計算連個節點的相關度,聽說效果不錯。度量兩個隨機變量的差別性。
這幅圖就是說,p分佈和q分佈共有的部分相對熵就是正的,非共有部分就是負的,D(p||q)就是面積的求和。
互信息
瞭解Y的前提下,消除X的不肯定度。(注意和鏈式法則不同)
相關文章:
http://gaofeihang.blog.163.com/blog/static/8450828520128139648199/
熵(Entropy)、聯合熵、條件熵、相對熵、互信息:http://blog.sohu.com/people/f21996355!f/123258006.html
只是概念性的描述,沒法看出這幾種熵之間的聯繫和用處,因此本身寫一篇。