基於內容識別垃圾郵件的一些問題和思考

前言 網上關於應用機器學習的方法識別垃圾郵件文章很多. 核心思想是對郵件進行分詞,或對分詞作優化,進而應用各算法達到識別垃圾郵件的目的. 我的觀點是, 這種思路 對一般文章,如帖子,博客,甚至嚴肅的論文都會有不錯的分類效果. 但用於識別垃圾郵件則遠遠不足. 分類基本要素 作者不是研究算法的,只是根據多年識別垃圾郵件的經驗,認爲分類的基本要素包括: 分類算法 大量高質量的樣本 數據清理 特徵的提取
相關文章
相關標籤/搜索