不對成性分類的誤差以及查準率和召回率的權衡

這裏我們討論的是偏斜類分類問題,即正負類的數據個數相差太多。以病人是否患癌症爲例,訓練集中不患癌症的比例約爲99.2%,相比於患癌數目太多。 這種情況下,假設我們設計的算法的正確率爲99%,但是你會發現,當我們設計一個結果恆等於不患癌的算法時,我們的正確率爲99.2%,比之前設計的算法正確率高,但是這是一個欺騙我們的無效的算法。 所以這裏我們,提出了查準率和召回率: 我們發現,在設置臨界值時,要想
相關文章
相關標籤/搜索