文檔過濾

時間 2021-01-20

原文原文鏈接

1、早期的過濾器早期的都是基於規則的分類器，使用事先設計好的一組規則，用於指明某條信息屬於垃圾信息。典型的規則有： -英文大寫字母的過度使用 -與醫藥學相關的單詞 -過於花哨的HTML用色等 2、智能分類器 a. 特徵提取將單詞作爲文檔的特徵，其假設：某些單詞相對而言更會出現在垃圾信息中。不過特徵未必是一個個單詞，他們也可以是詞組或者短語，或者任何可以歸爲文檔中缺失或者不存在的其他東西。如何

>>阅读原文<<