豬豬的機器學習筆記（七）最大熵模型

時間 2019-12-02

標籤機器學習筆記最大熵模型简体版

原文原文鏈接

最大熵模型

做者：櫻花豬算法

摘要：機器學習

本文爲七月算法（julyedu.com）12月機器學習第七次課在線筆記。熵，這個概念對於咱們來講既熟悉又陌生，熟悉的是咱們在許多領域都會碰到熵這個概念，陌生的是若是真的讓你解釋它又說不清道不明。本次課程討論了熵的概念並詳細解釋了最大熵模型。此次課承上啓下，將前幾回課程所埋的坑一一填起，又爲接下來更加深刻的機器學習作了鋪墊。ide

引言：函數

熵的概念對我來講既陌生又熟悉，在看論文中經常會碰到「熵」可是卻老是以爲差一口氣來解釋它。經過此次課程，終於對於熵這個概念有了一個更加具體和感性的認識，再也不單單侷限於冰冷的公式。最大熵模型在機器學習以及其餘算法中都有所提到，是一種很是常見又有用的方法。本文首先闡述了有關於「熵」的一些概念，而後詳細的介紹了最大熵模型和其應用。學習

預備知識：spa

參數估計、機率論、方陣的導數3d

熵及相關概念orm

最大熵模型blog

ICA事件

1、熵及相關概念

1、信息量

當一個小几率事件發生了，那麼這個事件的信息量很大；反之若是一個大機率事件發生了，這個事件的信息量就不多。根據這個描述，咱們能夠構造一個信息量的表達式：

若事件A發生的機率爲P，那麼A的信息量爲：

二、熵

對隨機事件的信息量求指望，得熵的定義：

注：經典熵的定義，底數是2，單位是bit

三、聯合熵Joint Entropy

四、條件熵

在Y發生的前提下，X發生「新」帶來的熵。

互信息表示法：

五、相對熵

相對熵，又稱互熵，交叉熵，鑑別信息，Kullback 熵，Kullback-Leible（KL）散度等。

相對熵能夠度量兩個隨機變量的「距離」，K-L距離；是很是重要的概念。：K-L距離是非對稱的。

公式：、

設p(x)、q(x)是X中取值的兩個機率分佈，則p對q的相對熵是

假定使用KL(Q||P)，爲了讓距離最小，則要求在P爲 0的地方，Q儘可能爲0。會獲得比較「窄」的分佈曲線；

假定使用KL(P||Q)，爲了讓距離最小，則要求在P不爲0的地方，Q也儘可能不爲0。會獲得比較「寬」的分布曲線；

六、互信息

兩個隨機變量X，Y的互信息，定義爲X，Y 的聯合分佈和獨立分佈乘積的相對熵。

注：能夠聯繫「互信息」

七、整理

對偶式：

2、最大熵模型

一、最大熵模型原則

a. 認可已知事物(知識)

b. 對未知事物不作任何假設，沒有任何偏見

二、最大熵模型Maxent

P={p | p是X上知足條件的機率分佈}

三、求解過程：

最大熵模型MaxEnt的目標拉格朗日函數L

歸一化因子：

五、應用：

ICA獨立成分分析

ICA的目標函數：

ICA能夠用最大化各個成分的統計獨立性做爲目標函數。

「獨立性」判斷原則爲：

a. 最小化各個成分的互信息（MMI、K-L散度、最大熵）

b. 最大化各個成分的非高斯性

PCA：主成分分析；分出來是不相關的。

ICA：獨立成分分析。分出來是獨立的。

六、極大似然估計和最大熵模型

根據極大似然估計的正確性能夠判定：最大熵的解 (無偏的對待不肯定性)是最符合樣本數據分佈的解，即最大熵模型的合理性。

信息熵能夠做爲機率分佈集散程度的度量，使用熵的近似能夠推導出基尼係數，在統計問題、決策樹等問題中有重要做用。

熵：不肯定度

似然：與知識的吻合程度

最大熵模型：對不肯定度的無偏分配

最大似然估計：對知識的無偏理解

知識＝不肯定度的補集

來自爲知筆記(Wiz)

相關文章

相關標籤/搜索

瀏覽器信息

Docker命令大全

網站主機教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<