【機器學習PAI實踐七】文本分析算法實現新聞自動分類

一、背景 新聞分類是文本挖掘領域較爲常見的場景。目前很多媒體或是內容生產商對於新聞這種文本的分類常常採用人肉打標的方式,消耗了大量的人力資源。本文嘗試通過智能的文本挖掘算法對於新聞文本進行分類。無需任何人肉打標,完全由機器智能化實現。 本文通過PLDA算法挖掘文章的主題,通過主題權重的聚類,實現新聞自動分類。包括了分詞、詞型轉換、停用詞過濾、主題挖掘、聚類等流程。 二、數據集介紹 具體字段如下:
相關文章
相關標籤/搜索