基於Spark Mllib的文本分類

基於Spark Mllib的文本分類 文本分類是一個典型的機器學習問題,其主要目標是通過對已有語料庫文本數據訓練得到分類模型,進而對新文本進行類別標籤的預測。這在很多領域都有現實的應用場景,如新聞網站的新聞自動分類,垃圾郵件檢測,非法信息過濾等。本文將通過訓練一個手機短信樣本數據集來實現新數據樣本的分類,進而檢測其是否爲垃圾消息,基本步驟是:首先將文本句子轉化成單詞數組,進而使用 Word2Vec
相關文章
相關標籤/搜索