文本數據的機器學習自動分類方法(上)

本文爲第一部分,着重介紹文本預處理以及特徵抽取的方法。算法 隨着互聯網技術的迅速發展與普及,如何對浩如煙海的數據進行分類、組織和管理,已經成爲一個具備重要用途的研究課題。而在這些數據中,文本數據又是數量最大的一類。「文本分類是指在給定分類體系下,根據文本內容自動肯定文本類別的過程」(達觀數據科技聯合創始人,張健)。文本分類有着普遍的應用場景,例如:數據庫 新聞網站包含大量報道文章,基於文章內容,須
相關文章
相關標籤/搜索