統計學習方法(Machine Learning)------- 第1章 統計學習方法概論

 

  第1章 統計學習方法概論web

----------------------------------------------------------------------------------------------------------------------------算法

注: 這是機器學習的入門知識,也是很規範化的東西,我力求用最簡單,最通俗的語言描述出來,而後附上Python版本代碼和例子。網絡

本人南京理工大學計算機碩士,主攻方向 : 天然語言處理,數據挖掘和機器學習,導師:RuiXia機器學習

----------------------------------------------------------------------------------------------------------------------------函數

本章講解內容:性能

1.1 統計學習學習

1.2 監督學習測試

1.3 統計學習三要素優化

1.4 模型評估與模型選擇ui

1.5 正則化與交叉驗證

1.6 泛化能力

1.7 生成模型與判別模型

1.8 分類問題,標註問題與迴歸問題

--------------------------------------------------------------------------------------------------------------------------------------------------------------------

 1.1 統計學習

<統計學習方法3要素 = 模型 + 策略 + 算法>

      統計學習以計算機及網絡爲平臺,以數據爲研究對象(數據分爲兩類:連續變量和離散變量),構建模型並應用模型進行分析和預測。其主要流程就是:從數據出發,提取數據的特徵,抽象出數據的模型,發現數據中的知識,又回到對數據的分析與預測中去。特別是對未知新數據進行預測與分析。

(1)統計學習方法的總步驟:

後面關於模型,策略,算法 咱們會一一解釋。

 (2)統計學習方法的分類

  • 監督學習(supervised learning)
  • 非監督學習(unsupervised learning)
  • 半監督學習(semi-supervised learning)
  • 強化學習(reinforcement learning)

強烈推薦 谷歌scikit-learn 總結了 6大類 (分類 迴歸 聚合 降維 模型選擇 預處理 )及Python源代碼:http://scikit-learn.org/stable/

----------------------------------------------------------------------------------------------------------------------------------------------------------------

1.2 監督學習

概念:利用一組已知類別的樣本調整分類器參數,使其達到所要求性能的 過程,也稱爲監督訓練。也就是說樣本必須帶 類別或者稱爲標籤

(1)輸入空間:在監督學習中,將輸入全部可能取值的集合稱爲 輸入空間

(2)特徵空間:每一個具體的輸入是一個實例,一般由特徵向量表示,特徵向量的空間叫作特徵空間

(3)輸出空間:在監督學習中,將輸出全部可能取值的集合稱爲 輸出空間

監督學習 從 訓練數據集(訓練集 training data)  中學習模型調整參數,對 測試數據集(測試集 test data )進行預測

  • 迴歸問題:輸入變量與輸出變量均爲連續變量的預測問題
  • 分類問題:輸出變量爲有限個離散變量輸入的預測問題
  • 標註問題:輸入變量與輸出變量均爲變量序列的預測問題

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

1.3 統計學習三要素

(1)模型

分兩類:判別式模型 和 生成式模型(後面會細細講解)

判別式模型:也成決策函數:主要經過最後函數和某個值得比較,例如  F>0 爲第一類,F<0爲第二類來判別,多類的話就有多個F ,經過多個F值交叉判斷類別

生成式模型:又稱爲 機率模型,主要最後根據那個機率大,就是那個類別,固然全部機率之和必爲 1

(2) 策略

有了假設模型以後呢,咱們接下來考慮的就是 按照什麼規則或準則,方法保證咱們的模型會向着咱們指望的方向發展呢

在這咱們必須瞭解兩個概念:  損失函數  風險函數

損失函數 度量模型一次預測的好壞。風險函數 度量平均意義下的模型預測的好壞。

(2.1)損失函數(loss function),又叫作 代價函數(cost function)

通俗的說呢:就是預測值和咱們理想值之間的差距大小。

損失函數值越小,模型就越好,由於咱們預測值更接近真實值啊,這就是策略,至於如何讓損失函數減少,咱們就要看後面的算法了。

(2.2)風險函數(risk function),又叫作 指望損失(excepted loss)

概念:就是 理論上的假設模型 f(X) 關於 聯合分佈 P(X,Y)的平均意義下的損失,說白了就是平均損失啊

 

------------------------結論:-------------------------

當樣本容量很大時,採用經驗風險最小化,效果理想

當樣本容量較小時,若是還採用這種方式,很容易 造成  ‘過擬合現象 (over-fitting)’

所以咱們須要引入 結構風險最小化(structual risk minimization),是爲了防止過擬合現象而提出的策略,結構風險最小化等價於正則化(regularization),結構風險就是在經驗風險上加上表示模型複雜度的正則化項(regularizer)或者罰項(penalty term)

 

(3) 算法

問題:策略選取正確了,就是說能保證咱們的 loss fucntion 損失函數或代價函數的值變小,可是具體的改如何變小呢?改用那些方法呢??

其實這個主要 就是  最優化工程裏的知識了,我還沒學哦

主要有:

  • 梯度降低法
  • 牛頓法和擬牛頓法
  • 座標輪轉法

----------------------------------------------------------------------------------------------------------------------------------------------------------------------

1.4  模型評估和模型選擇

統計學習的目的不單單是對已知數據 更加劇要的是對未知的數據都能有很好的預測能力

不一樣的學習方法咱們會有不一樣的模型。基於咱們提出了 

  • 訓練偏差(training error):
  • 測試偏差(test error)

偏差率用 e 表示 就是估計錯誤的個數除以總個數,正確率用 r 表示,就是 估計正確的個數除以總個數

 (1)過擬合與模型選擇

過擬合:是指學習的時候選擇的模型所包含的參數過多,以至於這一模型對已知數據預測的很好,可是對於未知的數據預測效果卻不好的現象

模型選擇:旨在避免過擬合現象並提升模型的預測能力

 

從圖中咱們能夠看到,M =0 ,M= 1是均是直線,效果不好,M=9是百分百擬合,這樣對將來未知數據效果也會不好,而M=3纔是咱們所要選擇的模型啊

相關文章
相關標籤/搜索