文本挖掘之新聞分類

數據探索流程 步驟 增加序號列 本實驗的數據源是以單個新聞爲單元,需要增加ID列來作爲每篇新聞的唯一標識,方便下面算法的計算。 分詞及詞頻統計 這兩步都是文本挖掘領域最常規的做法。 首先使用分詞組件對content字段(新聞內容)進行分詞。去除過濾詞之後(過濾詞一般是標點符號及助語),再對詞頻進行統計。 停用詞過濾 停用詞過濾組件用於過濾輸入的停用詞詞庫,一般過濾標點符號以及對文章影響較小的助語等
相關文章
相關標籤/搜索