信息熵用於描述信源的不肯定度, 即用數學語言描述機率與信息冗餘度的關係.函數
C. E. Shannon 在 1948 年發表的論文A Mathematical Theory of Communication中指出, 任何信息都存在冗餘, 冗餘大小與信息中每一個符號(數字, 字母或單詞)的出現機率或者說不肯定性有關. Shannon 借鑑了熱力學的概念, 把信息中排除了冗餘後的平均信息量稱爲信息熵, 並給出了計算信息熵的數學表達式.spa
一個信源發送出什麼符號是不肯定的, 衡量它能夠根據其出現的機率來度量: 機率大出現機會多, 則不肯定性小; 反之則不肯定性就大.
不肯定性函數f是機率P的減函數, 兩個獨立符號所產生的不肯定性應等於各自不肯定性之和, 即f(P1,P2)=f(P1)+f(P2), 這稱爲可加性, 同時知足這兩個條件的函數f是對數函數, 即事件
$ f(P) = \log \frac{1}{P} = -\log P $數學
在信源中, 考慮的不是某一單個符號發生的不肯定性, 而是要考慮這個信源全部可能發生狀況的平均不肯定性. 若信源符號有n種取值: U1, ... Ui, ...Un, 對應機率爲 P1, ... Pi,... Pn, 且各類符號的出現彼此獨立, 此時信源的平均不肯定性應當爲單個符號不肯定性-logPi的統計平均值(E), 可稱爲信息熵, 即io
$ H(U) = E\left [ -\log p_i \right ] = -\sum_{i=1}^{n}p_i\log p_i $變量
式中對數通常取2爲底, 單位爲比特. 也能夠取其它對數底, 採用其它相應的單位, 可用換底公式換算.統計
信息的基本做用就是消除人們對事物的不肯定性, 信息熵就是一個在博弈對局中信息混亂的現象. 當32個球隊奪冠機率相同(即最混亂)時, 對應的信息熵等於五比特. 能夠證實當n=32時信息熵公式的值不可能大於5. 語言
信息熵是信息論中用於度量信息量的一個概念, 一個系統越是有序, 信息熵就越低; 反之, 一個系統越是混亂, 信息熵就越高. 因此信息熵也能夠說是系統有序化程度的一個度量.集合
熵的概念源自熱物理學
假定有兩種氣體a, b, 當兩種氣體徹底混合時, 能夠達到熱物理學中的穩定狀態, 此時熵最高. 若是要實現反向過程, 即將a, b徹底分離, 在封閉的系統中是沒有可能的. 只有外部干預, 也即系統外部加入某種有序化的東西(如能量), 使得a, b分離. 這時系統進入另外一種穩定狀態, 此時信息熵最低. 熱物理學證實: 在一個封閉的系統中, 熵老是增大, 直至最大. 若要使系統的熵減小(使系統更加有序化), 則必須有外部能量的干預. 時間
信息熵的計算是很是複雜的, 而具備多重前置條件的信息, 更是幾乎不能計算的, 因此在現實世界中信息的價值大可能是不能被計算出來的. 但由於信息熵和熱力學熵的緊密相關性, 因此信息熵是能夠在衰減的過程當中被測定出來的. 所以信息的價值是經過信息的傳遞體現出來的, 在沒有引入附加價值(負熵)的狀況下, 傳播得越廣流傳時間越長的信息越有價值. 在傳播中是指信息的不肯定性, 一則高信息度的信息熵是很低的, 低信息度的熵則高. 具體說來, 凡是致使隨機事件集合的確定性, 組織性, 法則性或有序性等增長或減小的活動過程, 均可以用信息熵的改變量這個統一的標尺來度量.