機器學習模型評估方法

評估指標的侷限性

  • 準確率(Accuracy)算法

    • \(\text{Accuracy} = \dfrac{n_{correct}}{n_{total}}\)
    • 樣本不均衡時,不許確
    • 改進:平均準確率
  • 精確率(Precision)和召回率(Recall)函數

    • 精確率:分類正確的正樣本個數佔分類器斷定爲正樣本的樣本個數比例
    • 召回率:分類正確的正樣本個數佔真正的正樣本個數的比例性能

    • \(Precision = (TP) / (TP + FP)\)
    • \(Recall = TP / (TP + FN)\)
    • \(F1 = (2 \times p \times r) / (p + r)\) 調和平均數學習

  • 均方根偏差(Root Mean Square Error, RMSE)測試

    • 經常使用來衡量回歸模型優化

    • 易受離羣點影響(基於歐式距離)spa

    • 改進:平均絕對百分比偏差(MAPE)排序

      \[MAPE = \sum_{i=1}^n|\frac{y_i - \hat{y}_i}{y_i}|\times \frac{100}{n}\]ci

PR曲線和ROC曲線

  • PR曲線it

    • 排序問題,一般沒有肯定閾值肯定正負樣本

    • 認爲模型Top N結果就是模型斷定的正樣本,而後計算前N個位置上的準確率Precision@N和Recall@N

  • ROC曲線(受試者工做特徵曲線)

    • 縱座標:真陽率(True Positive Rate)。\(TPR = TP / P\)
    • 橫座標:假陽率(False Positive Rate)。 \(FPR = FP / N\)
    • 二值分類問題中,模型輸出預測爲正樣本的機率。將樣本按照機率排序,不斷移動截斷點生成曲線上的關鍵點。截斷點就是區分正負樣例預測結果的閾值。
  • AUC

    • AUC越大,說明模型把真正的正樣本排在前面,性能越好
  • PR曲線與ROC曲線比較

    • ROC能儘可能下降不一樣數據集帶來的干擾,形狀比較穩定
    • PR曲線適用於特定數據集,更直觀

餘弦距離

  • 用餘弦類似度表示餘弦距離
  • 歐氏距離用來研究數值的絕對差別(相同維度差別),餘弦距離用來研究相對差別(好比各維度的差別)
  • 在單位圓上有:\(||A-B||_2 = \sqrt{2(1-cos(A,B))}\)
  • 餘弦距離知足正定性、對稱性,不知足三角不等式(可經過單位圓舉出反例)
  • KL距離不知足對稱性和三角不等式

A/B測試

  • 緣由:
    • 離線評估可能過擬合
    • 線上工程環境不一樣
    • 某些商業指標在離線評估時沒法計算
  • 方法:
    • 用戶分桶:實驗組和對照組
    • 樣本的獨立性和採樣方式的無偏性

模型評估方法

  • Holdout檢驗:劃分訓練集和測試集
  • 交叉檢驗
  • 留p檢驗
  • 自助法:當樣本數很大時,大約有36.8%樣本從未選擇過,可用做驗證集

超參數調優

  • 網格搜索,局部最優解
  • 隨機搜索,局部最優解
  • 貝葉斯優化方法:
    • 首先根據先驗分佈,設置一個蒐集函數,而後採樣測試目標函數,並利用這個信息更新目標函數的先驗分佈。最後,算法測試由後驗分佈給出的最值最可能出現的位置的點
    • 探索+利用的平衡

過擬合和欠擬合

  • 過擬合
    • 訓練集效果好,泛化能力差
    • 下降過擬合:
      • 獲取更多訓練數據
      • 下降模型複雜度
      • 增長正則化
      • 集成學習,下降單一模型過擬合風險
  • 欠擬合
    • 訓練集和測試集效果都不好
    • 下降欠擬合
      • 添加更多特徵
      • 增長模型複雜度
      • 減少正則化係數
相關文章
相關標籤/搜索