機器學習筆記5——系統設計

關鍵字:偏斜類,查準率,召回率 一、垃圾郵件分類的例子 1.因爲垃圾郵件有一些典型的出現比較多的詞,比如buy,diccount,hurry等等,所以可以先從訓練集中選擇出現頻率最高的一些詞,把他們放到一個向量裏去,這個向量叫特徵變量。然後判斷的時候就是如果單詞出現了,對應的地方就記爲1,否則記爲0.。最好在交叉驗證向量集上做誤差分析。 二、不對稱分類的誤差評估和衡量標準 1、偏斜類(通常把它的值
相關文章
相關標籤/搜索