基於熵的特徵提取

時間 2019-12-07

標籤基於特徵提取简体版

原文原文鏈接

基於熵的特徵提取算法

1、引言安全

最近一直在研究天然語言處理、文本分析相關的問題，看了很多論文，數據分析是一個很是有意思的東西，故準備寫一些博文來分享近來的一點心得。app

先來看一個有意思的例子，假設擁有不少用戶手機裝有哪些APP的數據，隨便列舉幾個淘寶、美團、美柚、網易彩票等等APP，經過用戶手機所安裝的app來推測用戶的性別，固然前提是預先有了一批數據做爲訓練集。那麼繪製成以下表格（安裝了該APP則√，不然×）：機器學習

淘寶學習	美柚get	網易彩票博客	性別數據分析
√it	√table	×	女
√	×	√	男
√	√	×	女
√	√	×	女
√	√	√	男
√	×	√	男
√	×	×	男
√	√	×	？

研究的問題明確一下，經過前面7條數據來判斷最後一條數據的性別？

一眼掃過，直覺告訴我：

一、是否安裝淘寶APP，對預測沒有太大做用，由於男女都安裝

二、安裝美柚和網易彩票，貌似頗有區分度，這兩個因子「信息量」貌似很大。

信息量大不大，能不能定量計算呢？請接着往下看，繫好安全帶，咱們全速前進咯。

2、熵

對於熵的定義，我百度百科摘了一段，以下：

熵的概念是由德國物理學家克勞修斯於1865年所提出。最初是用來描述「能量退化」的物質狀態參數之一，在熱力學中有普遍的應用。但那時熵僅僅是一個能夠經過熱量改變來測定的物理量，其本質仍沒有很好的解釋，直到統計物理、信息論等一系列科學理論發展，熵的本質才逐漸被解釋清楚，即，熵的本質是一個系統「內在的混亂程度」。

最後一句話表名了熵的本質，他是描述一個系統混亂程度的，越是混亂，熵就越高，咱們就越難看清真相，在上面的例子中什麼信息都不知道的時候，就很難判斷最後一條數據的性別。

那麼物理學的概念怎麼用於信息論的呢？1948年，香農提出了「信息熵」的概念，定義以下：

H(x) = -∑p(xi)log(p(xi)) (i=1,2,..n)

其中：xi表示變量x可能的取值，p(xi)表示變量xi的機率

3、信息增益

信息增益是描述知道了某個因子或者信息，整個系統混沌狀態的減小量。

條件熵公式：H(x|y)=-∑p(yi)H(x|y=yi)(i=1,2,..n)

那麼信息增益：IG(y)=H(x)-H(x|y)

其中IG(y)表示y因子的信息增益，H(x|y)表示y發生的狀況下x的信息熵

4、計算

一、整個預測系統的信息熵

7條信息中3女、4男

H(性別)=-3/7*log3/7-4/7*log4/7=0.6829

二、知道「美柚」這個信息，預測系統的熵

安裝美柚app的有4個，其中女三、男1

不安裝美柚app的有3個，其中女0、男3

H(性別|y=安裝美柚)=-3/4*log3/4-1/4*log1/4=0.5623

P(安裝美柚)=4/7

P(性別|y=不安裝美柚)=-0-3/3*log3/3=0

P(不安裝美柚)=3/7

IG(美柚)=0.6829-(0.5632*4/7+0*3/7)=0.3610

三、知道「網易體育」這個信息，預測系統的熵

安裝網易體育app的有3個，其中女0、男3

不安裝網易體育app的有4個，其中女三、男1

P(性別|y=安裝網易體育)=-0-3/3*log3/3=0

P(安裝網易體育)=3/7

H(性別|y=不安裝網易體育)=-3/4*log3/4-1/4*log1/4=0.5623

P(不安裝網易體育)=4/7

IG(網易體育)=0.6829-(0.5632*4/7+0*3/7)=0.3610

四、知道「淘寶」這個信息，預測系統的熵

7條數據中7個用戶安裝淘寶app，3女4男

H(性別|y=安裝淘寶)=-3/7*log3/7-4/7*log4/7=0.6829

P(安裝淘寶)=7/7=1

IG(淘寶)=0.6829-0.6829*1=0

果真，知道用戶安裝淘寶app，對於預測系統而言，信息增益爲0，那就是知道淘寶這個因子，預測不了用戶的性別，那麼這個因子能夠排除。網易體育和美柚這個兩個因子的信息增益都爲0.3610，說明獲得了這兩個信息，整個系統系統的混沌狀態減少了，那麼能夠做爲預測模型的因子。

5、小結

咱們常常說「信息量大」，實際上一個信息所攜帶的信息量是能夠定量計算的，這是一個有意思的事情。

在使用諸如樸素貝葉斯、決策樹、隨機森林等等此類的機器學習算法來訓練模型時，每每會須要進行特徵提取，那麼信息增益能夠很好的實現這一點，另外還能達到降維的目的。

最後，咱們設想一個這樣的場景：有不少文章，文章的類別不少，有教育類、科技類、體育類等等，咱們須要作的是把文章歸類，以便與檢索。因爲數據量很大，人工歸類不太可能，有沒有辦法讓計算機幫咱們作呢？或者讓計算機像人同樣，讀一篇文章，稍微分析一下就知道了文章的類別。最初計算機可能只能識別幾個類別，經過對數據的學習，它慢慢的能夠識別全部類別了。這是一個挺有趣的問題，請關注第二篇博客《利用機器學習來進行文本分析》。

快樂源於分享。

此博客乃做者原創，轉載請註明出處

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。