基於熵的特徵提取算法
1、引言安全
最近一直在研究天然語言處理、文本分析相關的問題,看了很多論文,數據分析是一個很是有意思的東西,故準備寫一些博文來分享近來的一點心得。app
先來看一個有意思的例子,假設擁有不少用戶手機裝有哪些APP的數據,隨便列舉幾個淘寶、美團、美柚、網易彩票等等APP,經過用戶手機所安裝的app來推測用戶的性別,固然前提是預先有了一批數據做爲訓練集。那麼繪製成以下表格(安裝了該APP則√,不然×):機器學習
淘寶學習 |
美柚get |
網易彩票博客 |
性別數據分析 |
√it |
√table |
× |
女 |
√ |
× |
√ |
男 |
√ |
√ |
× |
女 |
√ |
√ |
× |
女 |
√ |
√ |
√ |
男 |
√ |
× |
√ |
男 |
√ |
× |
× |
男 |
√ |
√ |
× |
? |
研究的問題明確一下,經過前面7條數據來判斷最後一條數據的性別?
一眼掃過,直覺告訴我:
一、是否安裝淘寶APP,對預測沒有太大做用,由於男女都安裝
二、安裝美柚和網易彩票,貌似頗有區分度,這兩個因子「信息量」貌似很大。
信息量大不大,能不能定量計算呢?請接着往下看,繫好安全帶,咱們全速前進咯。
2、熵
對於熵的定義,我百度百科摘了一段,以下:
熵的概念是由德國物理學家克勞修斯於1865年所提出。最初是用來描述「能量退化」的物質狀態參數之一,在熱力學中有普遍的應用。但那時熵僅僅是一個能夠經過熱量改變來測定的物理量,其本質仍沒有很好的解釋,直到統計物理、信息論等一系列科學理論發展,熵的本質才逐漸被解釋清楚,即,熵的本質是一個系統「內在的混亂程度」。
最後一句話表名了熵的本質,他是描述一個系統混亂程度的,越是混亂,熵就越高,咱們就越難看清真相,在上面的例子中什麼信息都不知道的時候,就很難判斷最後一條數據的性別。
那麼物理學的概念怎麼用於信息論的呢?1948年,香農提出了「信息熵」的概念,定義以下:
H(x) = -∑p(xi)log(p(xi)) (i=1,2,..n)
其中:xi表示變量x可能的取值,p(xi)表示變量xi的機率
3、信息增益
信息增益是描述知道了某個因子或者信息,整個系統混沌狀態的減小量。
條件熵公式:H(x|y)=-∑p(yi)H(x|y=yi)(i=1,2,..n)
那麼信息增益:IG(y)=H(x)-H(x|y)
其中IG(y)表示y因子的信息增益,H(x|y)表示y發生的狀況下x的信息熵
4、計算
一、整個預測系統的信息熵
7條信息中3女、4男
H(性別)=-3/7*log3/7-4/7*log4/7=0.6829
二、知道「美柚」這個信息,預測系統的熵
安裝美柚app的有4個,其中女三、男1
不安裝美柚app的有3個,其中女0、男3
H(性別|y=安裝美柚)=-3/4*log3/4-1/4*log1/4=0.5623
P(安裝美柚)=4/7
P(性別|y=不安裝美柚)=-0-3/3*log3/3=0
P(不安裝美柚)=3/7
IG(美柚)=0.6829-(0.5632*4/7+0*3/7)=0.3610
三、知道「網易體育」這個信息,預測系統的熵
安裝網易體育app的有3個,其中女0、男3
不安裝網易體育app的有4個,其中女三、男1
P(性別|y=安裝網易體育)=-0-3/3*log3/3=0
P(安裝網易體育)=3/7
H(性別|y=不安裝網易體育)=-3/4*log3/4-1/4*log1/4=0.5623
P(不安裝網易體育)=4/7
IG(網易體育)=0.6829-(0.5632*4/7+0*3/7)=0.3610
四、知道「淘寶」這個信息,預測系統的熵
7條數據中7個用戶安裝淘寶app,3女4男
H(性別|y=安裝淘寶)=-3/7*log3/7-4/7*log4/7=0.6829
P(安裝淘寶)=7/7=1
IG(淘寶)=0.6829-0.6829*1=0
果真,知道用戶安裝淘寶app,對於預測系統而言,信息增益爲0,那就是知道淘寶這個因子,預測不了用戶的性別,那麼這個因子能夠排除。網易體育和美柚這個兩個因子的信息增益都爲0.3610,說明獲得了這兩個信息,整個系統系統的混沌狀態減少了,那麼能夠做爲預測模型的因子。
5、小結
咱們常常說「信息量大」,實際上一個信息所攜帶的信息量是能夠定量計算的,這是一個有意思的事情。
在使用諸如樸素貝葉斯、決策樹、隨機森林等等此類的機器學習算法來訓練模型時,每每會須要進行特徵提取,那麼信息增益能夠很好的實現這一點,另外還能達到降維的目的。
最後,咱們設想一個這樣的場景:有不少文章,文章的類別不少,有教育類、科技類、體育類等等,咱們須要作的是把文章歸類,以便與檢索。因爲數據量很大,人工歸類不太可能,有沒有辦法讓計算機幫咱們作呢?或者讓計算機像人同樣,讀一篇文章,稍微分析一下就知道了文章的類別。最初計算機可能只能識別幾個類別,經過對數據的學習,它慢慢的能夠識別全部類別了。這是一個挺有趣的問題,請關注第二篇博客《利用機器學習來進行文本分析》。
快樂源於分享。
此博客乃做者原創, 轉載請註明出處