做者:櫻花豬算法
摘要:機器學習
本文爲七月算法(julyedu.com)12月機器學習第七次課在線筆記。熵,這個概念對於咱們來講既熟悉又陌生,熟悉的是咱們在許多領域都會碰到熵這個概念,陌生的是若是真的讓你解釋它又說不清道不明。本次課程討論了熵的概念並詳細解釋了最大熵模型。此次課承上啓下,將前幾回課程所埋的坑一一填起,又爲接下來更加深刻的機器學習作了鋪墊。ide
引言:函數
熵的概念對我來講既陌生又熟悉,在看論文中經常會碰到「熵」可是卻老是以爲差一口氣來解釋它。經過此次課程,終於對於熵這個概念有了一個更加具體和感性的認識,再也不單單侷限於冰冷的公式。最大熵模型在機器學習以及其餘算法中都有所提到,是一種很是常見又有用的方法。本文首先闡述了有關於「熵」的一些概念,而後詳細的介紹了最大熵模型和其應用。學習
預備知識:spa
參數估計、機率論、方陣的導數3d
最大熵模型blog
ICA事件
1、熵及相關概念
1、信息量
當一個小几率事件發生了,那麼這個事件的信息量很大;反之若是一個大機率事件發生了,這個事件的信息量就不多。根據這個描述,咱們能夠構造一個信息量的表達式:
若事件A發生的機率爲P,那麼A的信息量爲:
二、熵
對隨機事件的信息量求指望,得熵的定義:
注:經典熵的定義,底數是2,單位是bit
三、聯合熵Joint Entropy
四、條件熵
在Y發生的前提下,X發生「新」帶來的熵 。
互信息表示法:
五、相對熵
相對熵,又稱互熵,交叉熵,鑑別信息,Kullback 熵,Kullback-Leible(KL)散度等。
相對熵能夠度量兩個隨機變量的「距離」,K-L距離;是很是重要的概念。:K-L距離是非對稱的。
公式:、
設p(x)、q(x)是X中取值的兩個機率分佈,則p對q的相對熵是
假定使用KL(Q||P),爲了讓距離最小,則要求在P爲 0的地方,Q儘可能爲0。會獲得比較「窄」的分佈曲 線;
假定使用KL(P||Q),爲了讓距離最小,則要求在P不爲0的地方,Q也儘可能不爲0。會獲得比較「寬」的分 布曲線;
六、互信息
兩個隨機變量X,Y的互信息,定義爲X,Y 的聯合分佈和獨立分佈乘積的相對熵。
注:能夠聯繫「互信息」
七、整理
對偶式:
2、最大熵模型
一、最大熵模型原則
a. 認可已知事物(知識)
b. 對未知事物不作任何假設,沒有任何偏見
二、最大熵模型Maxent
P={p | p是X上知足條件的機率分佈}
三、求解過程:
最大熵模型MaxEnt的目標拉格朗日函數L
歸一化因子:
五、應用:
ICA獨立成分分析
ICA的目標函數:
ICA能夠用最大化各個成分的統計獨立性做爲目標函數。
「獨立性」判斷原則爲:
a. 最小化各個成分的互信息(MMI、K-L散度、最大熵)
b. 最大化各個成分的非高斯性
PCA:主成分分析;分出來是不相關的。
ICA:獨立成分分析。分出來是獨立的。
六、極大似然估計和最大熵模型
根據極大似然估計的正確性能夠判定:最大熵的解 (無偏的對待不肯定性)是最符合樣本數據分佈的解,即最大熵模型的合理性。
信息熵能夠做爲機率分佈集散程度的度量,使用熵的近似能夠推導出基尼係數,在統計問題、決策樹 等問題中有重要做用。
熵:不肯定度
似然:與知識的吻合程度
最大熵模型:對不肯定度的無偏分配
最大似然估計:對知識的無偏理解
知識=不肯定度的補集