信息熵的簡單理解

  ,信息熵在機器學習和深度學習中是十分重要的。那麼,信息熵究竟是什麼呢?機器學習

  首先,信息熵是描述的一個事情的不肯定性。好比:我說,太陽從東方升起。那麼這個事件發生的機率幾乎爲1,那麼這個事情的反應的信息量就會很小。若是我說,太陽從西方升起。那麼這就反應的信息量就很大了,這有多是由於地球的自轉變成了自東向西,或者地球脫離軌道去到了別的地方,那麼這就可能致使白天變成黑夜,熱帶雨林將變成沙漠,東北亞將再也不是苦寒之地,而是如今的西歐同樣的海洋性季風氣候,而西歐變成寒帶大陸性氣候跟如今的東北亞苦寒之地同樣。函數

  那麼,太陽從東方升起這個事件,機率很大,信息量就會不多。相反,太陽從西方升起,機率很小,信息量就會不少。所以,信息熵常被用來做爲一個系統的信息含量的量化指標,從而能夠進一步用來做爲系統方程優化的目標或者參數選擇的判據。學習

  先來一個信息熵的公式:優化

    

  其中:𝑝(𝑥𝑖)表明隨機事件𝑥𝑖的機率。 blog

  由上面太陽東昇西落,西升東落很容易看出,信息量是隨着發生的機率的增大而減小的,並且不能爲負。事件

  另外,若是咱們有兩個不相關事件A和B,那麼能夠得知這兩個事情同時發生的信息等於各自發生的信息之和。即h(A,B) = h(A) + h(B)深度學習

  並且,根據貝葉斯定理,p(A,B) = p(A) * p(B)變量

  根據上面說到的說熵的定義應該是機率的單調函數。咱們很容易看出結論熵的定義 h 應該是機率 p(x)log 函數,所以一個隨機變量的熵可使用如下定義:im

  \[h(x)=-log_2p(x)\]

  此處的負號,僅僅是爲了保證熵爲正數或者爲零,而log函數的基數2可使任意數,只不過根據廣泛傳統,使用2做爲對數的底。db

  咱們用熵來評價整個隨機變量x平均的信息量,而平均最好的量度就是隨機變量的指望,即信息熵的定義以下:


    H[x]=-\sum_xp(x)log_2p(x)

  最終的公式就出來了!還要說明的是,當這個事情必定發生的時候,發生的機率就爲1,那麼它的信息量爲0,信息熵就爲0。

相關文章
相關標籤/搜索