分類結果評估

5、分類結果評估測試

(1)數據集:3d

  採用2萬多篇文檔的數據集中的0.3測試集來計算roc,一共有6802篇文章的題目和摘要。blog

(2)精確度、召回率、F值:ci

  混淆矩陣(Confusion Matrix):文檔

真正例(True Positive;TP):將一個正例正確判斷成一個正例it

僞正例(False Positive;FP):將一個反例錯誤判斷爲一個正例io

真反例(True Negtive;TN):將一個反例正確判斷爲一個反例程序

僞反例(False Negtive;FN):將一個正例錯誤判斷爲一個反例im

Ⅰ.精確率(Precision)call

預測爲正例的樣本中,真正爲正例的比率.

精確率本質來講是對於預測結果來講的.表示對於結果來講,我對了多少。

Ⅱ.召回率(Recall)

預測爲正例的真實正例(TP)佔全部真實正例的比例.

召回率是對於原來的樣本而言的.表示在原來的樣本中,我預測中了其中的多少。

Ⅳ.F值

表示精確率和召回率的調和均值

微精確度爲多個混淆矩陣的精確率的平均 微精確度:0.758751607 

微召回率爲多個混淆矩陣的召回率的平均 微召回率:0.763060747

微F1: 0.76090008

(3)AUC和ROC曲線

Ⅰ.FPR僞正類率(False Positive Rate,FPR)

Ⅱ.TPR真正類率(Ture Positive Rate,TPR)

預測爲正且實際爲正的樣本佔全部正樣本的比例.你會發現,這個不就是召回率

ROC就是對於一個分類器,給定一些閾值,每個閾值均可以獲得一組(FPR,TPR),以FPR做爲橫座標,TPR做爲縱座標

AUC:爲ROC曲線下面積

第一列是每一篇文獻屬於這一類的機率

第二列是真實的類別 若是屬於這類就爲1,不屬於就爲0

放入Excel中,而後再使用R語言計算AUC,能夠直接畫出ROC曲線。

第一步:首先加載這個選中的程序包

 

 

第二步,導入文件:

 

第三步:畫圖,FALSE和TURE是作升序仍是降序

第四步:前百分之多少的AUC

(其中top=0.01能夠不設置)

第五步:算AUC

相關文章
相關標籤/搜索