查全率查準率是從信息檢索來的,那麼咱們就得先看看原來的是怎麼定義的:html
查全率——它是指檢出的相關文獻量與檢索系統中相關文獻總量的比率,是衡量信息檢索系統檢出相關文獻能力的尺度。
查準率——它是指檢出的相關文獻量與檢出文獻總量的比率,是衡量信息檢索系統檢出文獻準確度的尺度。數據庫
使用泛指性較強的檢索語言(如上位類、上位主題詞)能提升查全率,但查準率降低。
使用專指性較強的檢索語言(以下位類、下位主題詞)能提升查準率,但查全率降低。
下面用多分類問題舉個例子,首先咱們計算多分類問題的混淆矩陣,而後計算各個指標,結果以下:markdown
confus =post
69 2 4 6 1 14 4
3 70 6 2 7 6 6
4 6 66 2 5 6 11
2 2 18 51 9 12 6
4 8 1 2 80 3 2
7 6 3 7 2 67 8
11 6 7 5 7 6 58atom
accuracy =0.6586spa
numcorrect =461htm
precision =0.6900 0.7000 0.6286 0.6800 0.7207 0.5877 0.6105blog
recall =0.6900 0.7000 0.6600 0.5100 0.8000 0.6700 0.5800ci
F =0.6900 0.7000 0.6439 0.5829 0.7583 0.6262 0.5949文檔
這是一個7-分類問題,每一類樣本100。混淆矩陣看見了麼? confus矩陣中每一行和等於該類的樣本和=100;可是每一列就不是100了,每一列其實的意義,就是信息檢索的返回的全部結果。
假設咱們用類別3的標籤進行搜索,那麼會返回confus中第3列的全部數據,沒問題吧?由於分到第3類的確實是這些數據,一共有105個,由於有其餘的類也分到這個類中了唄。
因此第三類的查準率=檢索出的相關文檔數目(66)/檢索返回的全部的文檔數目(105)=0.6288=precision(3)。結果是沒問題的吧。
查全率那就是檢索出的文檔數目(66)/數據庫中的第三類的全部文檔數目(檢索出的第三類+沒有檢索出的第三類=confus第三行的和=100)=0.66=recall(3)。也沒問題吧。