分類預測算法評價(初識)

分類於預測算法評價算法

  • 分類與預測模型對訓練集進行預測而得出得準確率並不能很好得反映預測模型將來得性能,爲了有效判斷一個預測模型得性能表現,須要一組沒有參與預測模型創建得數據集並在該數據集上評價預測模型得準確率,這組獨立耳朵數據集叫作測試集,模型預測效果評價,一般用相對絕對偏差,平均絕對偏差,均方偏差,均方根偏差來衡量.
    1. 絕對偏差與相對偏差
      • 設Y表示實際值, Ý表示預測值, 則稱E爲絕對偏差,計算公式以下:
        • Ε = Y - Ý
      • e爲相對偏差, 計算公式以下
        • e = (Y - Ý) / Y
      • 有時也能夠用偏差百分數來表示
        • e = (Y - Ý) / Y * 100%
      • 這是一種直觀得偏差表示方法
    2. 平均絕對偏差
      • 平均絕對偏差定義以下:
        • MAE = 1/n ∑nn=1i| = 1/n ∑i=1n | Υi - Ýi|
        • 公式中含義以下:
        • MAE : 平均絕對偏差
        • Ei : 第i個實際值與預測值得絕對偏差
        • Yi : 第i各實際值
        • Ýi : 第i各預測值
      • 因爲預測偏差有正有負,爲了不正負向抵消,故取偏差絕對值進行綜合並取其平均數,這是偏差分析得綜合指標法之一
    3. 均方偏差
      • 均方偏差定義以下:
        • MSE = 1/n∑ni=1Ε2i = 1/n∑nn=1i - Ýi)2
      • 上式中,MSE表示均方差,其餘符號同前, 本方法用於還原平方失真程度
      • 均方偏差是預測偏差平方之和得平均數, 它避免了正負偏差不能相加得問題,因爲對偏差E進行了平方,增強了數值大得偏差在指標中得做用,從而提升了這個指標得靈敏度,十一大優勢,均方偏差是偏差分析得綜合指標法之一.
    4. 均方根偏差
      • 均方根偏差定義以下:
        • RMSE = (1/n∑ni=1Ε2i)1/2 = (1/n∑ni=1i - Ýi)2)1/2
        • 上式中, RMSE表示均方根偏差, 其餘符號同前,這是均方偏差得平方根,表明了預測值得離散程度, 也稱爲標準偏差,最佳擬合狀況爲RMSE = 0.均方根偏差也是偏差分析得綜合指標之一
    5. 平均絕對百分偏差
      • 品駿絕對偏差定義以下:
        • MAPE = 1/n∑ni=1 | Εi / Υi |  = 1/n ∑nn=1 | (Υi - Ýi) / Υi |
      • 上式中, MAPE表示平均絕對百分偏差,通常認爲認爲MAPE小於10時, 預測精度較高
    6. Kappa統計
      • Kappa統計式比較兩個或多個觀測者對同一事物,或觀測者對同一事物的兩次或屢次觀測結果是否一致, 以因爲機遇形成的一致性和實際觀測的一致性之間的差異大小做爲評價基礎的統計指標, Kappa統計量和加權Kappa統計量不只能夠用於無序和有序分類變量資料的一致性, 重現性檢驗, 並且能給出一個反映一致大小的"量"值.
      • Kappa取值在[-1, 1]之間, 其值的大小均有不一樣意義
        • Kappa = +1 說明兩次判斷結果徹底一致
        • Kappa = -1 說明兩次判斷的結果徹底不一致
        • Kappa = 0 說明兩次判斷的結果式基於形成
        • Kappa < 0 說明一致程度比機遇形成的還差, 兩次檢查結果很不一致, 在實際應用中無心義
        • Kappa > 0 說明有意義, Kappa越大, 說明一致性很好
        • Kappa >= 0.75 說明已經取得至關滿意的一致程度
        • Kappa < 0.4 說明一致程度不夠
      • 識別準確度
    7. 識別準確度定義以下:
      • Accuracy = (TP + FN) / (TP + TN + FP + FN) * 100%
      • TP (True Positives): 正確的確定表示正確確定的分類數.
      • TN (True Negatives): 正確的否認表示正確否認的分類數.
      • FP (False Positives): 錯誤的確定表示錯誤確定的分類數.
      • FN (False Negatives): 錯誤的否認表示錯誤否認的分類數 .
    8. 識別精準率
      • 是唄精準率以下:
        • Precision = TP / (TP + FP) * 100%
    9. 反饋率:
      • 反饋率定義以下
        • ec  all = TP / (TP + FP) * 100%
    10. ROC曲線
      • 受試者工做特性曲線是一種很是有效的模型評價方式,可爲選定臨界值給出定量提示.將靈敏度,設在縱軸, 1-特異性,設在橫軸, 就能夠得出ROC曲線圖,該曲線下的積分面積大小,與每種方法優劣密切相關,反映分類器正確的統計機率,其值越接近1說明該宣發效果越好.
    11. 混淆矩陣
      • 混淆矩陣式模式識別領域中一種經常使用的表達形式,它描繪樣本數據的真實屬性與識別結果類型證件的關係,式評價分類器性能的一種經常使用方法,假設對於N類模式的分類任務,識別數據集D包括T0個樣本,每類模式分別含有Ti個數據(i=1,...,N).採用某種識別計算法構造分類器C,cmij表示第i類模式被分類器C判斷成第j類模式的數據佔第i類模式樣本總數的百分率,則可疑獲得NxN維混淆矩陣.
      • CM(CD) = 

        cm11 cm12 ... cm1i ... cm1n
        cm21 cm22 ... cm2i ... cm2napp

        cmi1 cmi2 ... cmii ... cmin性能

        cmn1 cmn2 ... cmni ... cmnn測試

      • 混淆矩陣中元素的行下標對應目標的真實屬性,列下標對應分類器產生的識別屬性,對角線元素表示各模式可以被分類器C正確識別的百分率,而非對角線元素則表示發生錯誤判斷的百分率
      • 經過混淆矩陣,剋得到分類器的正確識別率和錯誤識別率
      • 各模式正確識別率:
        • Ri = cmii, i = 1,...,N
      • 平均正確識別率:
        • Ra = ∑(cmii • Τi) / Τ0
      • 各模式錯誤識別率:
        • Wi = ∑nj=1,j≠i cmij = 1 - cmij = 1 - Ri
      • 平均錯誤識別率:
        • Wa = ∑ni=1nj=1,j≠i(cmij • Ti)/T0 = 1 - Ra
      • 對於一個二分類預測模型, 分類結束後的混淆矩陣以下:
      • 混淆矩陣 預測類
        類 = 1 類= 0
        實際類 類 = 1 A B
        類 = 0 C D
      • 若有150個樣本數據,這些數據分紅3類,每類50個,分類結束後獲得的混淆矩陣以下:
      • 43
        5
        2
        0 1 49
        2 45

        3spa

      • 第一行的數聽說明有43個樣本正確分類,有5個樣本應該屬於第一類,卻錯誤分到了第二類,有2個樣本應該屬於第一類,卻錯誤的分到第三類.
相關文章
相關標籤/搜索