信息論和數理統計——機器學習基礎

1、信息論

信息論處理的是客觀世界中的不肯定性。
通訊的基本問題是在一點精確地或近似地復如今另外一點所選取的消息。在生活中,信息的載體是消息。
不一樣的消息帶來的信息在直觀感受上不是徹底相同的,好比「馬雲得到奧賽健美冠軍」比「施瓦辛格得到奧賽健美冠軍」的信息要大得多。
由於前者是小几率事件,然後者咱們已經習覺得常。不肯定性越大的消息提供的信息量越大。算法

一個系統內在的混亂程度機器學習

信源

產生消息(符號)、消息序列和連續消息的來源。函數

信息量

信息多少的量度
在信息論中,若是事件A發生的機率爲\(p(A)\),則這個事件的自信息量定義爲
\(h(A)=−log_2p(A)\)
好比:當\(p(A\))爲1/1000得出信息量約爲10,當\(p(A)\)爲1/2得出的信息量約爲1工具

信息熵

信息熵是信源可能發出的各個符號的自信息量在信源構成的機率空間上的統計平均值。
根據單個事件的自信息量能夠計算包含各個符號的信源的信息熵
若是一個離散信源X包含n個符號,每一個符號\(a_i\)的取值爲\(p(a_i)\),則X的信源熵爲
\(H(X)=− \sum_{i=1}^np(a_i)log_2p(a_i)\)性能

條件熵

在機率論中有條件機率的概念,將條件機率擴展到信息論中,就能夠獲得條件熵。
若是兩個信源之間具備相關性,那麼在已知其中一個信源X的條件下,另外一個信源熵就會減少。
條件熵\(H(Y∣X)\)表示的是在已知隨機變量\(X\)的條件下,另外一個隨機變量\(Y\)的不肯定性,也就是在給定\(X\)時,根據\(Y\)的條件機率計算出的熵再對\(X\)求數學指望學習

$ H(Y|X)=\sum_{i=1}^np(x_i)H(Y|X=x_i) $測試

\(=-\sum_{i=1}^np(x_i)\sum_{j=1}^mp(y_i|x_i)log_2p(y_i|x_i)\)編碼

\(=-\sum_{i=1}^n\sum_{j=1}^np(x_i,y_i)log_2p(y_j|x_i)\)spa

條件熵的意義在於先按照變量\(X\)的取值對變量Y進行了一次分類,對每一個分出來的類別計算其單獨的信息熵,再將每一個類的信息熵按照\(X\)的分佈計算其數學指望。code

信息增益

在機器學習中,信息增益描述了一個特徵帶來的信息量的多少,常於分類特徵的選擇,也叫互信息

信息增益=信息熵-條件熵

假設存在一個隨機變量\(X\),和另一個隨機變量\(Y\),那他們的信息增益是

\(I(X;Y)=H(Y)-H(Y|X)\)

能夠理解爲X給Y帶來的信息增益。
對於給定的訓練數據集\(Y\)\(H(Y)\)表示在未給定任何特徵時,對訓練集進行分類的不肯定性
\(H(Y|X)\)表示了使用特徵\(X\)對訓練集\(Y\)進行分類的不肯定性.
信息增益表示的是特徵\(X\)帶來的對訓練集\(Y\)分類不肯定性的減小程度,也就是特徵\(X\)對於訓練集\(Y\)的區分度。

信息增益比

信息增益值很大程度依賴於數據集的信息熵\(H(Y)\),於是不具備絕對意義。爲了解決這個問題,研究者提出了信息增益比

\(g(X,Y)=I(X;Y)/H(Y)\)

相對熵

相對熵也叫KL散度,用於描述兩個不一樣機率分佈之間的差別。

\(D_{KL}(P||Q)=\sum_{i=1}^np(x_i)log_2\frac{p(x_i)}{q(x_i)}\)

相對熵是用來度量使用基於\(P\)的編碼來編碼來自\(Q\)的樣本平均所需的額外的比特個數。

最大熵原理

在只掌握未知分佈的部分知識時,應該選取符合這這些知識但熵值最大的機率分佈。
最大熵原理實質是知足已知的知識前提下,對於未知的分佈應該是本身最不能肯定或最隨機的分佈,由於只有這樣,最終的分佈才能表明一個最公平的選擇。

信息論使用「信息熵」的概念,對單個信源的信息量和通訊中傳遞信息的數量與效率等問題作出瞭解釋,並在世界的不肯定性和信息的可測量性之間搭建起一座橋樑

2、數理統計

數理統計(mathematical statistics)的任務是根據可觀察的樣本反過來推斷整體的性質
推斷的工具是統計量,統計量是樣本的函數,是個隨機變量
數理統計根據觀察或實驗獲得的數據來研究隨機現象,並對研究對象的客觀規律作出合理的估計和判斷。
基礎的統計理論有助於對機器學習的算法和數據挖掘的結果作出解釋,只有作出合理的解釋,數據的價值纔可以體現。

泛化能力:模型用於不屬於測試集的新樣本的能力。泛化能力越強,學習器越好

與機率論的區別

機率論在找下一個點,數理統計則是局部推總體

  • 機率論做用的前提是隨機變量的分佈已知,根據已知的分佈來分析隨機變量的特徵和規律;
  • 數理統計的研究對象是未知分佈的隨機變量,研究方法是對隨機變量進行獨立重複的觀察,根據獲得的觀察對原始分佈作出推斷。
    數理統計能夠當作是逆向的機率論,更偏向於從理論角度研究方法論,進而探討如何應用

以買彩票爲例

  • 機率論解決的是根據已知的搖獎規律判斷一注號碼中獎的可能性
  • 數理統計解決的是根據以前屢次中獎/不中獎的號碼記錄以必定的精確性推測搖獎的規律,雖然可能沒什麼用。

統計推斷方式一:參數估計

參數估計經過隨機抽取的樣原本估計整體分佈的未知參數,包括點估計和區間估計

  • 點估計(point estimation)
    具體的方法包括矩估計法(method of monents)和最大似然估計法(maximum likelihood estimation)
    兩種方法都表明了推斷整體參數的思路,可是對於同一個參數,用不一樣的估計方法求出的估計量極可能存在差別,這一般用無偏性、有效性、一致性來評價
  • 區間估計(interval estimation)
    區間估計至關於在點估計的基礎上進一步提供了取值範圍和偏差界限

統計推斷方式二:假設檢驗

經過隨機抽取的樣原本接受或拒絕關於整體的某個判斷

假設檢測的做用是根據學習器在測試集上的性能推斷其泛化能力的強弱,並肯定所得結論的精確程度,能夠進一步推廣爲比較不一樣學習器的性能。

泛化性偏差的構成能夠爲三部分:

  • 誤差(bias)
    算法預測值和真實結果之間的偏離程度,刻畫的是模型的欠擬合我
  • 方差(variance)
    表示數據的擾動對預測性能的影響,刻畫的是模型的過擬合特性
  • 噪聲(noise) 表示當前學習任務上可以達到的最小泛化偏差,刻畫的是任務自己的難度
相關文章
相關標籤/搜索