第1章 統計學習方法概論web
----------------------------------------------------------------------------------------------------------------------------算法
注: 這是機器學習的入門知識,也是很規範化的東西,我力求用最簡單,最通俗的語言描述出來,而後附上Python版本代碼和例子。網絡
本人南京理工大學計算機碩士,主攻方向 : 天然語言處理,數據挖掘和機器學習,導師:RuiXia機器學習
----------------------------------------------------------------------------------------------------------------------------函數
本章講解內容:性能
1.1 統計學習學習
1.2 監督學習測試
1.3 統計學習三要素優化
1.4 模型評估與模型選擇ui
1.5 正則化與交叉驗證
1.6 泛化能力
1.7 生成模型與判別模型
1.8 分類問題,標註問題與迴歸問題
--------------------------------------------------------------------------------------------------------------------------------------------------------------------
1.1 統計學習
<統計學習方法3要素 = 模型 + 策略 + 算法>
統計學習以計算機及網絡爲平臺,以數據爲研究對象(數據分爲兩類:連續變量和離散變量),構建模型並應用模型進行分析和預測。其主要流程就是:從數據出發,提取數據的特徵,抽象出數據的模型,發現數據中的知識,又回到對數據的分析與預測中去。特別是對未知新數據進行預測與分析。
(1)統計學習方法的總步驟:
後面關於模型,策略,算法 咱們會一一解釋。
(2)統計學習方法的分類
強烈推薦 谷歌scikit-learn 總結了 6大類 (分類 迴歸 聚合 降維 模型選擇 預處理 )及Python源代碼:http://scikit-learn.org/stable/
----------------------------------------------------------------------------------------------------------------------------------------------------------------
1.2 監督學習
概念:利用一組已知類別的樣本調整分類器的參數,使其達到所要求性能的 過程,也稱爲監督訓練。也就是說樣本必須帶 類別或者稱爲標籤
(1)輸入空間:在監督學習中,將輸入全部可能取值的集合稱爲 輸入空間
(2)特徵空間:每一個具體的輸入是一個實例,一般由特徵向量表示,特徵向量的空間叫作特徵空間
(3)輸出空間:在監督學習中,將輸出全部可能取值的集合稱爲 輸出空間
監督學習 從 訓練數據集(訓練集 training data) 中學習模型調整參數,對 測試數據集(測試集 test data )進行預測
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
1.3 統計學習三要素
(1)模型
分兩類:判別式模型 和 生成式模型(後面會細細講解)
判別式模型:也成決策函數:主要經過最後函數和某個值得比較,例如 F>0 爲第一類,F<0爲第二類來判別,多類的話就有多個F ,經過多個F值交叉判斷類別
生成式模型:又稱爲 機率模型,主要最後根據那個機率大,就是那個類別,固然全部機率之和必爲 1
(2) 策略
有了假設模型以後呢,咱們接下來考慮的就是 按照什麼規則或準則,方法保證咱們的模型會向着咱們指望的方向發展呢
在這咱們必須瞭解兩個概念: 損失函數 和 風險函數
損失函數 度量模型一次預測的好壞。風險函數 度量平均意義下的模型預測的好壞。
(2.1)損失函數(loss function),又叫作 代價函數(cost function)
通俗的說呢:就是預測值和咱們理想值之間的差距大小。
損失函數值越小,模型就越好,由於咱們預測值更接近真實值啊,這就是策略,至於如何讓損失函數減少,咱們就要看後面的算法了。
(2.2)風險函數(risk function),又叫作 指望損失(excepted loss)
概念:就是 理論上的假設模型 f(X) 關於 聯合分佈 P(X,Y)的平均意義下的損失,說白了就是平均損失啊
------------------------結論:-------------------------
當樣本容量很大時,採用經驗風險最小化,效果理想
當樣本容量較小時,若是還採用這種方式,很容易 造成 ‘過擬合現象 (over-fitting)’
所以咱們須要引入 結構風險最小化(structual risk minimization),是爲了防止過擬合現象而提出的策略,結構風險最小化等價於正則化(regularization),結構風險就是在經驗風險上加上表示模型複雜度的正則化項(regularizer)或者罰項(penalty term)
(3) 算法
問題:策略選取正確了,就是說能保證咱們的 loss fucntion 損失函數或代價函數的值變小,可是具體的改如何變小呢?改用那些方法呢??
其實這個主要 就是 最優化工程裏的知識了,我還沒學哦
主要有:
----------------------------------------------------------------------------------------------------------------------------------------------------------------------
1.4 模型評估和模型選擇
統計學習的目的不單單是對已知數據 更加劇要的是對未知的數據都能有很好的預測能力
不一樣的學習方法咱們會有不一樣的模型。基於咱們提出了
偏差率用 e 表示 就是估計錯誤的個數除以總個數,正確率用 r 表示,就是 估計正確的個數除以總個數
(1)過擬合與模型選擇
過擬合:是指學習的時候選擇的模型所包含的參數過多,以至於這一模型對已知數據預測的很好,可是對於未知的數據預測效果卻不好的現象
模型選擇:旨在避免過擬合現象並提升模型的預測能力
從圖中咱們能夠看到,M =0 ,M= 1是均是直線,效果不好,M=9是百分百擬合,這樣對將來未知數據效果也會不好,而M=3纔是咱們所要選擇的模型啊