文檔過濾

1、早期的過濾器 早期的都是基於規則的分類器,使用事先設計好的一組規則,用於指明某條信息屬於垃圾信息。典型的規則有: -英文大寫字母的過度使用 -與醫藥學相關的單詞 -過於花哨的HTML用色等 2、智能分類器 a. 特徵提取 將單詞作爲文檔的特徵,其假設:某些單詞相對而言更會出現在垃圾信息中。不過特徵未必是一個個單詞,他們也可以是詞組或者短語,或者任何可以歸爲文檔中缺失或者不存在的其他東西。 如何
相關文章
相關標籤/搜索