機器學習1-基礎知識

機器學習1-基礎知識


《機器學習》第2章-模型評估與選擇
《統計學習方法》第1章-統計學習方法概論html


1. 機器學習三要素

方法=模型+策略+算法算法

  • 模型:要學習的條件機率分佈或者決策函數
  • 策略:按照什麼樣的準則學習或者選擇最佳模型
    • 經驗風險最小化:
    • 結構風險最小化:即正則化(regularization),在經驗風險的基礎上增長表示模型複雜度的正則化項
  • 算法:模型的具體計算方法,通常指最優化方法

2. 模型評估

  • 簡單交叉驗證:隨機地將數據集分爲兩個部分,一部分做爲訓練集,另外一部分做爲測試集
    • 訓練/測試集的劃分要儘量地保持數據分佈的一致性
  • 交叉驗證法cross validation:(1)將數據集劃分爲k個大小相等的互斥子集,

    (2)每次使用k -1個子集的數據訓練模型,剩下的一個子集用於測試模型。從而能夠進行k 次訓練和測試;(3)選出k 次測試中平均測試偏差最小的模型
    • 留一法:
  • bootstrapping法:給定包含m個樣本的數據集D,每次隨機從D中有放回地抽樣出一個樣本,重複執行m次,生成新的數據集S。

    即經過bootstrap sampling方法,原數據集D中仍然越有1/3的樣本沒有出如今數據集S中。沒有出現的數據樣本D-S能夠做爲測試集用於測試,這樣的測試結果成爲包外估計out-of-bag estimation

3. 性能度量

  • 錯誤率與精度:
    • 錯誤率:分類錯誤的樣本數佔樣本總數的比例
    • 精度:分類正確的樣本數佔樣本總數的比例
  • 查準率、查全率:
    * 二分類問題的TP/FP/TN/FN
    enter description here
    • 查準率P:全部被判斷有病的樣本中真正有病的機率
    • 查全率R:全部被判斷有病的的樣本佔真正有病的樣本的比率
    • F1值:查準率和查全率的調和平均值
    • 查準率和查全率相互矛盾。對於一個測試樣本,經過設置不一樣的閾值,則分類器對樣本的預測結果大於該閾值則判爲正例,小於該閾值則判爲負例,每一個閾值對應一個(查全率,查準率)數據點。全部閾值的對應點就組成了P-R曲線
      • 若是一個學習器的P-R曲線被另外一個學習器徹底包住,則可斷言後者的性能優於前者
        enter description here
  • ROC和AUC:
    • ROC曲線:
      • 縱軸爲「真正例率」(true positive rate, TPR),即查全率
      • 橫軸爲「假正例率(false positive rate, FPR),即全部沒病的樣本中被錯判爲有病的機率

        enter description here
    • AUC(area under ROC curve):ROC曲線下的面積,AUC值越大,則學習器性能越好
    • 和P-R曲線相比,ROC曲線更具備魯棒性,不容易受到樣本變化的影響
      enter description here

4. 誤差bias與方差variance

  • 原因:算法在不一樣訓練集上學得的結果有可能不一樣,即使這些訓練集來自於同一個分佈
  • 假設:對某個測試樣本,令在數據集中的標記,的真實標記,某個訓練集上學到的模型上的預測輸出。以迴歸任務爲例:
    • 學習算法在不一樣數據集上的指望預測爲
      bootstrap

    • 使用樣本數相同的不一樣訓練集產生的預測結果的方差爲
      app

    • 噪聲爲
      機器學習


      假定噪聲指望爲0,即

    • 誤差(bias)爲指望輸出與真實標記的差異,即
      svg


      注意:誤差是一個不隨測試集D變化的常數

  • 對算法的指望泛化偏差進行分解:






    因而,返回偏差能夠理解爲方差、誤差與噪聲之和
    • 誤差:學習算法的指望偏差與真實結果的偏離程度,刻畫了學習算法自己的擬合能力
    • 方差:一樣大小的訓練集的變更所致使的學習性能的變化,刻畫了數據擾動所形成的影響
    • 噪聲:在當前任務下任何學習算法所能達到的指望泛化偏差的下限,刻畫了學習問題自己的難度。表徵了數據集的質量(食材的好壞)
      enter description here
      enter description here
  • 誤差-方差權衡:
    • 欠擬合時,誤差主導了泛化偏差率,訓練數據的擾動不足以使學習器發生顯著變化
    • 過擬合時,方差主導了泛化偏差率,學習器的擬合能力很是強,訓練數據發生的輕微擾動都致使學習器發生顯著變化
相關文章
相關標籤/搜索