豬豬的機器學習筆記(七)最大熵模型

最大熵模型

做者:櫻花豬算法

 

摘要:機器學習

本文爲七月算法(julyedu.com12月機器學習第七次課在線筆記。熵,這個概念對於咱們來講既熟悉又陌生,熟悉的是咱們在許多領域都會碰到熵這個概念,陌生的是若是真的讓你解釋它又說不清道不明。本次課程討論了熵的概念並詳細解釋了最大熵模型。此次課承上啓下,將前幾回課程所埋的坑一一填起,又爲接下來更加深刻的機器學習作了鋪墊。ide

 

引言:函數

熵的概念對我來講既陌生又熟悉,在看論文中經常會碰到「熵」可是卻老是以爲差一口氣來解釋它。經過此次課程,終於對於熵這個概念有了一個更加具體和感性的認識,再也不單單侷限於冰冷的公式。最大熵模型在機器學習以及其餘算法中都有所提到,是一種很是常見又有用的方法。本文首先闡述了有關於「熵」的一些概念,而後詳細的介紹了最大熵模型和其應用。學習

 

預備知識:spa

參數估計、機率論、方陣的導數3d

 

熵及相關概念orm

最大熵模型blog

ICA事件

 

1、熵及相關概念

1、信息量

   當一個小几率事件發生了,那麼這個事件的信息量很大;反之若是一個大機率事件發生了,這個事件的信息量就不多。根據這個描述,咱們能夠構造一個信息量的表達式:

   若事件A發生的機率爲P,那麼A的信息量爲:

二、

   對隨機事件的信息量求指望,得熵的定義:

注:經典熵的定義,底數是2,單位是bit

 

三、聯合熵Joint Entropy

 

四、條件熵

Y發生的前提下,X發生「新」帶來的熵 。

互信息表示法:

 

五、相對熵

   相對熵,又稱互熵,交叉熵,鑑別信息,Kullback 熵,Kullback-LeibleKL)散度等。

   相對熵能夠度量兩個隨機變量的「距離」,K-L距離;是很是重要的概念。:K-L距離是非對稱的。

   公式:、

   設p(x)q(x)X中取值的兩個機率分佈,則pq的相對熵

    

假定使用KL(Q||P),爲了讓距離最小,則要求在P0的地方,Q儘可能爲0。會獲得比較「窄」的分佈曲 線;

假定使用KL(P||Q),爲了讓距離最小,則要求在P不爲0的地方,Q也儘可能不爲0。會獲得比較「寬」的分 布曲線;

 

六、互信息

   兩個隨機變量XY的互信息,定義爲XY 的聯合分佈和獨立分佈乘積的相對熵。

注:能夠聯繫「互信息」

 

七、整理

對偶式:

 

2、最大熵模型

一、最大熵模型原則

a. 認可已知事物(知識)

b. 對未知事物不作任何假設,沒有任何偏見

 

二、最大熵模型Maxent

P={p | pX上知足條件的機率分佈}

 

三、求解過程:

最大熵模型MaxEnt的目標拉格朗日函數L

 

歸一化因子:

 

 

五、應用:

ICA獨立成分分析

ICA的目標函數:

   ICA能夠用最大化各個成分的統計獨立性做爲目標函數。

  「獨立性」判斷原則爲:

a. 最小化各個成分的互信息(MMIK-L散度、最大熵)

b. 最大化各個成分的非高斯性

PCA:主成分分析;分出來是不相關的。

ICA:獨立成分分析。分出來是獨立的。

六、極大似然估計和最大熵模型

     根據極大似然估計的正確性能夠判定:最大熵的解 (無偏的對待不肯定性)是最符合樣本數據分佈的解,即最大熵模型的合理性。

信息熵能夠做爲機率分佈集散程度的度量,使用熵的近似能夠推導出基尼係數,在統計問題、決策樹 等問題中有重要做用。

熵:不肯定度

似然:與知識的吻合程度

最大熵模型:對不肯定度的無偏分配

最大似然估計:對知識的無偏理解

知識=不肯定度的補集



相關文章
相關標籤/搜索