咱們生活在一個極其複雜的世界,不論是小到分子原子亦或是大到整個宇宙,其複雜程度都是超乎想象。或許你未曾深刻去思考過身邊事物的複雜性,那是由於你已經對你平常所見習覺得常。全部在你出生以前發明的事物都是這個世界的天然組成部分,因此不少事物給人的感受都是這個世界原本的樣子。mysql
像人類這樣複雜的事物時如何出現的?像電腦這般複雜的事物是如何出現的?像大河山川那樣複雜的事物又是怎樣出現的呢?某些事物和另外某些事物是否有什麼聯繫?周圍的不少復瑣事物也許並無什麼明顯的規律,並且不少事物聯繫都並不是是肯定性的關係。算法
信息這個詞讓咱們感到熟悉而又陌生。熟悉是由於咱們所處在一個信息時代,跟生活密切相關的就有大量的各類信息,好比書籍、手機、電腦等。而陌生是由於很難精確說明信息是什麼而且如何量化信息,好比「地球是圓的」一句話包含了多少信息呢,在古代和現代這句話包含的信息量是否是就不同了呢。sql
萬物都包含着信息,信息可被處理並使用(從廣義上稱爲計算),從廣義的信息和信息處理角度看,咱們看到的事物變化實際上是宇宙的計算。也許能夠說世界的本質就是信息+計算。不少科學家認爲最有但願統一廣義相對論和量子力學的就是信息理論。網絡
將信息量化是信息革命的基礎,在香農發表《通訊的數學理論》以前,信息是一個很抽象並且沒法具體確切定義的東西,好比一我的說某公司擁有大量的信息,它有一億封郵件,那一億封郵件包含了多少信息?而在物理和化學等領域都已經有各種量綱能夠用於丈量各種物體特性,爲了讓信息能夠測量,香農獨自提出了比特(bit)概念,使用比特來丈量信息,比特也成爲了量綱成員。數據結構
熵是物理學的概念,在熱力學系統中,熵和能量能夠用來刻畫系統的變化。熵能夠在分子層面進行理解,物理系統由原子分子組成,全部粒子的瞬時狀態(位置、速度)描述了總體狀態。粒子不斷從某個微觀態轉變到另外一個微觀態,而熵對應着微觀態的數量,微觀態越多熵就越高。也就是說熵用來表示不肯定程度。併發
借鑑於物理學中的熵的概念,香農將其引入到通訊領域,香農認爲某個系統要攜帶信息就必需要有多個狀態,並且狀態越多,所能包含的信息就越多。此外,還須要引入機率問題,由於在給定條件下,全部可能狀態的機率之和必須爲1。而可能狀態越多則平均任意一個狀態發生的可能性就越低。機器學習
信息與可能狀態數量、機率、文本長度、文本自己意義都有密切的關係,但從通訊角度來看,能夠沒必要關心文本自己的意義。爲了對文本信息進行度量,首先須要肯定有多少個可能狀態及其對應的機率,將每一個狀態機率都與機率的對數相乘,而後累加全部項。獲得的結果便是信息熵的大小,單位爲比特。分佈式
信息熵能夠用來刻畫系統攜帶信息的能力,也能夠用來表示某個事物所攜帶的信息量。當使用信息熵來描述事物的信息量時,它缺少考慮冗餘,好比重複的兩句話並無帶來兩倍的信息量。還有順序不一樣的兩句話雖然信息量相同,可是從語言層面上的意義並不是相同。學習
調和平常意義的信息與信息熵的辦法是將信息熵視爲文本所能包含的最大信息量。人工智能
-------------推薦閱讀------------
個人開源項目彙總(機器&深度學習、NLP、網絡IO、AIML、mysql協議、chatbot)
歡迎關注:人工智能、讀書與感想、聊聊數學、分佈式、機器學習、深度學習、天然語言處理、算法與數據結構、Java深度、Tomcat內核等相關文章