【信息論】如何完全理解信息和熵?

信息和熵

© 飛翔的豬ospa

說明:本文是做者在看了weixin公衆號【超智能體】錄製的學習視頻後的總結,有須要請移步公衆號【超智能體】,利益無關,良心推薦。大多數教材都將信息和熵混爲一談,統稱爲信息熵,這實際上是不恰當的,於是有了這篇文章的誕生。視頻

定義熵和信息

定義熵以前,首先說明什麼是宏觀態和微觀態。事件

具體的一件事情爲宏觀態,而這件事情有多種可能狀況發生,每種可能狀況叫微觀態數學

好比:拋擲硬幣這件事,稱做宏觀態,而正面朝上和反面朝上做爲兩種可能的狀況,都是微觀態。it

熵:當一件事情有多種可能狀況時,這件事情對某人而言到底是那種狀況發生的不肯定性叫作class

信息:信息是可以消除某人對某件事情的不肯定的事物。信息和能量、質量同樣,是實實在在存在的事物,是可量化的。基礎

所以能夠說,獲取信息就是消除熵,熵和信息數量相等,但意義相反。所以,度量信息的時候,實際上咱們真正求的是的量,即某件事情(宏觀態)的不肯定性的大小。總結

至於熵(信息)怎麼度量,後面講。通信

消除熵?

信息是來消除熵(不肯定性)的。爲了好理解,如今熵後面我都加(不肯定性)。得到多少信息,就消除了多少熵(不肯定性),這些消除不肯定性的信息分爲三種類型:

  • 1.調整某一微觀態的機率
  • 2.排除某一可能的微觀態的干擾
  • 3.直接肯定實際狀況(百分之百肯定是該微觀態發生),即直接肯定某一微觀態

上面三條的確很差理解,下面舉例解釋。

小明正在作一選擇題,有ABCD四個選項,正確答案是C。小明徹底不會這道題,那麼小明對於四個選項(微觀態)的不肯定性最大,即熵最大。小明選擇任一選項的機率都是25%。爲消除不肯定性,小明須要知道一些信息:

  • 如小紅告訴小明,C選項正確的多是50%,那麼小明就有更大的可能會考慮C選項,不肯定性也就減小了,在這個過程當中,小紅告訴了小明信息,小明獲得了這些信息,並消除了對等數量的不肯定性。這對應着上面的第一種類型。
  • 若小紅告訴小明,A選項絕對不對,那麼小明只要再剩餘的BCD選項中考慮,此時小明選出正確答案的機率是1/3,大於25%,不肯定性也減小了。小明排除了A這一微觀態的干擾,減小了不肯定性。
  • 若小紅直接告訴小明,C是正確答案。那麼小明能夠迅速知道,A選項正確的機率是100%,徹底沒有了不肯定性,這是由於小紅告訴了小明所需的所有信息(就本事件而言),這對應於上面的第三種類型。

因此如今應該理解了:獲取信息=消除熵(不肯定性)。

假信息?

若是小紅告訴小明答案是A,這顯然是錯的,那這是否是「假信息」呢?

在上面的定義下,其實並無「假信息」這種說法。小紅告訴小明答案是A,根本就不是信息,或者說:信息量是0,由於小明聽到獲得這句話後,並無減小不肯定性,小明依舊徹底沒有得到可以幫助他獲得該事件究竟哪一種狀況發生的任何信息。

「小紅告訴小明答案是A」,若是這不是信息,那這是什麼呢?

數據,或者說是噪音。所謂噪音,是指干擾某人得到信息的事物,而數據信息噪音的混合體,須要用知識將其分離。

機率 VS 熵?

那麼機率和熵又有什麼區別呢?

機率是某件事情(宏觀態)的某個可能狀況(微觀態)發生的肯定性。

是某人對某件事情到底哪一種狀況發生的不肯定性。

二者是有本質不一樣的。下面舉例說明。

如咱們說,拋硬幣正面朝上的機率是50%,是說,拋一枚硬幣,正面朝上這個可能狀況(微觀態)發生的肯定性是50%,或者通俗的說:咱們有50%的把握認爲正面朝上。

指的是,咱們對「拋硬幣」這一事件(宏觀態),到底是正面朝上仍是反面朝上的不肯定性是多少。消除這個不肯定性,須要信息,那麼,信息如何度量?

信息的度量和熵的計算

在說明度量信息以前,必須明確信息的幾個性質。

  • 媒介無關
  • 相對個體
  • 相對事件

第一點很容易理解,小紅能夠用語言告訴小明正確答案是C(媒介是聲波),也能夠寫在紙上(媒介是紙),兩種狀況下小明都可以準確的接收到該信息,與媒介無關。

第二點指的是,信息的數量是相對個體而言的。小剛原本就知道正確答案是C,那麼他對這道題就沒有不肯定性,當他聽到小紅的話「正確答案是C」,對小剛來講信息量是0。而對於小明,信息量卻不是0。

第三點指的是,對不一樣事件,信息的數量是不一樣的。這點也很容易理解,假如這道題只有AB兩個選項,小明就會有50%的可能性選中,那麼小明對這道題的不肯定性就相對小一些。

但必須明確,信息雖然是相對的,信息倒是天然界實實在在存在的,不隨人的主觀意識而改變,即便對小剛來講信息量爲0,信息也是實際存在的,這和能感覺到的質量等物理量是有很大區別的。

於是,能夠這樣定義信息:信息描述的是一個觀察者肯定一個宏觀態是哪一種微觀態時所需的物理量。下面正式說明信息的度量。

前面提到,信息和質量同樣,是天然界實實在在存在的物理量,那麼咱們想一想質量是怎麼度量的?(即kg是怎麼定義的)。

咱們如今說1kg,最初也沒有kg的概念,而是選擇了一個參照物體,定義它的質量爲1kg,以後說其餘物體的質量,就是多少個參照物體,好比說某個物體8kg,就是說該物體的質量至關於8個參照物體,說某個物體m kg,就是說該物體至關於m個參照物體,這個m其實是這麼算的:

拿一天平,左邊放m個參照物體,右邊放被測物體,左邊爲\(m*1kg\),爲乘法,此時天平剛好平衡。因此已知被測物體的質量,要知道他至關於多少個參照物體(即度量),只要採起乘法的逆運算-除法,被測物體質量除以參照物體的質量(1kg),就是該物體的質量的一個度量。

而信息的度量也是相似的。

咱們知道,信息是用來某事情消除不肯定性的,即和熵的數量相等。那麼,信息即爲某件事物的不肯定性的大小。咱們是否也能夠找一件參照事件,定義某事件的不肯定性爲「多少個」該參照事件不肯定性?

答案是確定的。咱們選取參照事件爲拋擲硬幣,那麼毫無疑問有兩種微觀態,等機率爲50%,咱們定義該參考事件的不肯定性(即信息量)爲1bit,其餘事件的不肯定性的度量都相對於該參考事件。

可是這可和質量不同,不是簡單地倍數關係。且看:

拋擲1個硬幣有2種微觀態,信息量爲1bit。

拋擲2個硬幣有4種微觀態,信息量爲2bit。

拋擲3個硬幣有8種微觀態,信息量爲3bit。

拋擲4個硬幣有16種微觀態,信息量爲4bit。

可見,若某個事件有16種微觀態,那麼他的不肯定性,即信息量爲4bit。這是怎麼算的呢?拋擲硬幣數與微觀態顯然是指數關係,而若已知微觀態數,至關於拋擲了多少個硬幣(即至關於多少個參考事件的不肯定性)是指數運算的逆運算--即對數運算。因此,已知m種微觀態,且m種微觀態等可能發生,那麼不肯定性,即信息量計算爲信息量\(I=log_2m\),單位是bit。

須要指出的是,上面選擇參照事件是拋硬幣,徹底能夠選擇其餘事件,那麼求對數的底就會相應變化。

還有一個問題,現實生活中並非全部事件的微觀態都是等可能發生的,好比徹底存在下面這種事件:

事件A有4種微觀態abcd,發生的機率分別爲\(;;;a:1/6;b:1/6;c:1/6;d:1/2\)。那麼事件A的不肯定性(即熵,即信息量大小)該如何計算呢?

答案是,分別計算四種微觀態的信息量,再加權平均,即各自乘以本身的機率求和:

\(I(A)=P(a)*I(a)+P(b)*I(b)+P(c)*I(c)+P(d)*I(d)\)

那麼顯然剩下的問題是:\(I(a)\)如何計算?顯然不能再用公式\(I=log_2a\)。由於微觀態\(a\)做爲一個事件,咱們是不知道更多細節的。

咱們知道,機率\(p = 1/100\)至關於某事件有100種微觀態,每種微觀態的可能性都是1%。那麼顯然,機率\(p\)的倒數\(1/p\)就是等可能微觀態的數量。那麼很顯然,微觀態\(a\)做爲事件的信息量就是\(I(a)=log_2(1/P(a))\)

從而,計算事件A的信息量變成了:

\(I(A)=P(a)*log_2(1/P(a))+P(b)*log_2(1/P(b))+P(c)*log_2(1/P(c))+P(d)*log_2(1/P(d))\)

更通常的,對於事件(宏觀態)A,有m種微觀態,其中第i種微觀態的可能性是\(P(i)\),那麼消除他的不肯定性所需的信息量,也就是熵的大小是:\(\sum_{i=1}^{m}{P(i)*log(1/P(i))}\);

須要說明的是,式子中,\(log(1/P(i))\)稱做自信息

由此,咱們推導出了熵的計算公式:

\(Entropy(A) =\sum_{i=1}^{A}{P(i)*log(1/P(i))}\)

根據數學知識可知:

\(Entropy(A)=E(log(1/P(i)))\),即熵的大小爲自信息的指望。

上面的論述是香農理論的基礎,也奠基了咱們今天的通訊基礎,但香農徹底從數學的角度推導出,我不信有天才,可我實在想不出什麼別的詞來形容他。

相關文章
相關標籤/搜索