本系列爲李航《統計學習方法》學習筆記整理,如下爲目錄:算法
(一)統計學習方法概論app
(二)感知機函數
(三)k近鄰學習
(四)樸素貝葉斯測試
(五)決策樹優化
(六)邏輯斯蒂迴歸與最大熵模型ui
(七)支持向量機spa
(八)提高方法對象
(九)EM算法及其推廣blog
(十)隱馬爾科夫模型
(十一)條件隨機場
第一章 統計學習方法概論
統計學習的對象是數據,關於數據的基本假設是同類數據具備必定的統計規律性。
· 特色:
數據獨立同分布;模型屬於某個假設空間(學習範圍);給定評價準則下最優預測;最優模型的選擇由算法實現
1.2 監督學習
給定有限訓練數據出發,假設數據獨立同分布,並且假設模型屬於某個假設空間,應用某已評價準則,從假設空間中選擇一個最優模型,使它對已給訓練數據及未知測試數據在評價標準下有最準確的預測。
· 監督學習:分類、標註(序列預測)和迴歸
· 概念
輸入空間、特徵空間和輸出空間
聯合機率分佈
假設空間
1.3 三要素
a. 模型
模型就是所要學習的條件機率分佈(非機率模型)或決策函數(機率模型)
b. 策略
統計學習的目標在於從假設空間中選取最優模型。
損失函數來度量預測錯誤的程度,損失函數的指望是
學習目標是選擇指望風險最小的模型。
· 學習策略(選擇最優化的目標函數):
1) 經驗風險最小化
極大似然估計
2) 結構風險最小化(在經驗風險上添加模型複雜度的正則化項,防止過擬合)
貝葉斯中的最大後驗機率估計MAP
c. 算法- 最優化求解問題
1.4 模型評估與選擇
訓練偏差和測試偏差
過擬合
1.5 正則化與交叉驗證(模型選擇方法)
正則化符合奧卡姆剃刀原理;從貝葉斯估計的角度來看,正則化項對應模型的先驗機率,複雜的模型具備較大先驗機率。
交叉驗證:簡單、S折和留一交叉驗證;
1.6 泛化能力
若是學到的模型是f,那麼對未知數據的預測偏差爲泛化偏差(指望風險):
對於二分類問題,訓練偏差小的模型,泛化偏差也會小?
1.7 生成模型與判別模型
生成方法(generative approach) 由數據學習聯合機率分佈P(X,Y),而後求出條件機率分佈P(Y|X)做爲預測的模型 P(Y|X) = P(X, Y)/ P(X)
模型給定了輸入X產生輸出Y的生成關係。典型的有樸素貝葉斯和隱馬爾可夫
判別方法(discriminate approach)由數據直接學習決策函數或條件機率分佈。典型的有k近鄰,感知機,決策樹,最大熵,SVM等