信息論處理的是客觀世界中的不肯定性。
通訊的基本問題是在一點精確地或近似地復如今另外一點所選取的消息。在生活中,信息的載體是消息。
不一樣的消息帶來的信息在直觀感受上不是徹底相同的,好比「馬雲得到奧賽健美冠軍」比「施瓦辛格得到奧賽健美冠軍」的信息要大得多。
由於前者是小几率事件,然後者咱們已經習覺得常。不肯定性越大的消息提供的信息量越大。算法
一個系統內在的混亂程度機器學習
產生消息(符號)、消息序列和連續消息的來源。函數
信息多少的量度
在信息論中,若是事件A發生的機率爲\(p(A)\),則這個事件的自信息量定義爲
\(h(A)=−log_2p(A)\)
好比:當\(p(A\))爲1/1000得出信息量約爲10,當\(p(A)\)爲1/2得出的信息量約爲1工具
信息熵是信源可能發出的各個符號的自信息量在信源構成的機率空間上的統計平均值。
根據單個事件的自信息量能夠計算包含各個符號的信源的信息熵
若是一個離散信源X包含n個符號,每一個符號\(a_i\)的取值爲\(p(a_i)\),則X的信源熵爲
\(H(X)=− \sum_{i=1}^np(a_i)log_2p(a_i)\)性能
在機率論中有條件機率的概念,將條件機率擴展到信息論中,就能夠獲得條件熵。
若是兩個信源之間具備相關性,那麼在已知其中一個信源X的條件下,另外一個信源熵就會減少。
條件熵\(H(Y∣X)\)表示的是在已知隨機變量\(X\)的條件下,另外一個隨機變量\(Y\)的不肯定性,也就是在給定\(X\)時,根據\(Y\)的條件機率計算出的熵再對\(X\)求數學指望學習
$ H(Y|X)=\sum_{i=1}^np(x_i)H(Y|X=x_i) $測試
\(=-\sum_{i=1}^np(x_i)\sum_{j=1}^mp(y_i|x_i)log_2p(y_i|x_i)\)編碼
\(=-\sum_{i=1}^n\sum_{j=1}^np(x_i,y_i)log_2p(y_j|x_i)\)spa
條件熵的意義在於先按照變量\(X\)的取值對變量Y進行了一次分類,對每一個分出來的類別計算其單獨的信息熵,再將每一個類的信息熵按照\(X\)的分佈計算其數學指望。code
在機器學習中,信息增益描述了一個特徵帶來的信息量的多少,常於分類特徵的選擇,也叫互信息
信息增益=信息熵-條件熵
假設存在一個隨機變量\(X\),和另一個隨機變量\(Y\),那他們的信息增益是
\(I(X;Y)=H(Y)-H(Y|X)\)
能夠理解爲X給Y帶來的信息增益。
對於給定的訓練數據集\(Y\),\(H(Y)\)表示在未給定任何特徵時,對訓練集進行分類的不肯定性
\(H(Y|X)\)表示了使用特徵\(X\)對訓練集\(Y\)進行分類的不肯定性.
信息增益表示的是特徵\(X\)帶來的對訓練集\(Y\)分類不肯定性的減小程度,也就是特徵\(X\)對於訓練集\(Y\)的區分度。
信息增益值很大程度依賴於數據集的信息熵\(H(Y)\),於是不具備絕對意義。爲了解決這個問題,研究者提出了信息增益比
\(g(X,Y)=I(X;Y)/H(Y)\)
相對熵也叫KL散度,用於描述兩個不一樣機率分佈之間的差別。
\(D_{KL}(P||Q)=\sum_{i=1}^np(x_i)log_2\frac{p(x_i)}{q(x_i)}\)
相對熵是用來度量使用基於\(P\)的編碼來編碼來自\(Q\)的樣本平均所需的額外的比特個數。
在只掌握未知分佈的部分知識時,應該選取符合這這些知識但熵值最大的機率分佈。
最大熵原理實質是知足已知的知識前提下,對於未知的分佈應該是本身最不能肯定或最隨機的分佈,由於只有這樣,最終的分佈才能表明一個最公平的選擇。
信息論使用「信息熵」的概念,對單個信源的信息量和通訊中傳遞信息的數量與效率等問題作出瞭解釋,並在世界的不肯定性和信息的可測量性之間搭建起一座橋樑
數理統計(mathematical statistics)的任務是根據可觀察的樣本反過來推斷整體的性質
推斷的工具是統計量
,統計量是樣本的函數
,是個隨機變量
數理統計根據觀察或實驗獲得的數據來研究隨機現象,並對研究對象的客觀規律作出合理的估計和判斷。
基礎的統計理論有助於對機器學習的算法和數據挖掘的結果作出解釋,只有作出合理的解釋,數據的價值纔可以體現。
泛化能力:模型用於不屬於測試集的新樣本的能力。泛化能力越強,學習器越好
機率論在找下一個點,數理統計則是局部推總體
以買彩票爲例
搖獎規律
判斷一注號碼中獎的可能性搖獎的規律
,雖然可能沒什麼用。參數估計經過隨機抽取的樣原本估計整體分佈的未知參數,包括點估計和區間估計
經過隨機抽取的樣原本接受或拒絕關於整體的某個判斷
假設檢測的做用是根據學習器在測試集上的性能推斷其泛化能力的強弱,並肯定所得結論的精確程度,能夠進一步推廣爲比較不一樣學習器的性能。
泛化性偏差的構成能夠爲三部分: