5、分類結果評估測試
(1)數據集:3d
採用2萬多篇文檔的數據集中的0.3測試集來計算roc,一共有6802篇文章的題目和摘要。blog
(2)精確度、召回率、F值:ci
混淆矩陣(Confusion Matrix):文檔
真正例(True Positive;TP):將一個正例正確判斷成一個正例it
僞正例(False Positive;FP):將一個反例錯誤判斷爲一個正例io
真反例(True Negtive;TN):將一個反例正確判斷爲一個反例程序
僞反例(False Negtive;FN):將一個正例錯誤判斷爲一個反例im
Ⅰ.精確率(Precision)call
預測爲正例的樣本中,真正爲正例的比率.
精確率本質來講是對於預測結果來講的.表示對於結果來講,我對了多少。
Ⅱ.召回率(Recall)
預測爲正例的真實正例(TP)佔全部真實正例的比例.
召回率是對於原來的樣本而言的.表示在原來的樣本中,我預測中了其中的多少。
Ⅳ.F值
表示精確率和召回率的調和均值
微精確度爲多個混淆矩陣的精確率的平均 微精確度:0.758751607
微召回率爲多個混淆矩陣的召回率的平均 微召回率:0.763060747
微F1: 0.76090008
(3)AUC和ROC曲線
Ⅰ.FPR僞正類率(False Positive Rate,FPR)
Ⅱ.TPR真正類率(Ture Positive Rate,TPR)
預測爲正且實際爲正的樣本佔全部正樣本的比例.你會發現,這個不就是召回率
ROC就是對於一個分類器,給定一些閾值,每個閾值均可以獲得一組(FPR,TPR),以FPR做爲橫座標,TPR做爲縱座標
AUC:爲ROC曲線下面積
第一列是每一篇文獻屬於這一類的機率
第二列是真實的類別 若是屬於這類就爲1,不屬於就爲0
放入Excel中,而後再使用R語言計算AUC,能夠直接畫出ROC曲線。
第一步:首先加載這個選中的程序包
第二步,導入文件:
第三步:畫圖,FALSE和TURE是作升序仍是降序
第四步:前百分之多少的AUC
(其中top=0.01能夠不設置)
第五步:算AUC