Mahout使用K-Means進行中文文本聚類

一、數據準備 版本說明 使用的Mahout版本爲apache-mahout-distribution-0.10.1 使用的Hadoop版本爲hadoop-2.3.0-cdh5.0.0 分詞 使用爬蟲對每個URL的標題、關鍵詞、描述進行爬取,再用中文分詞工具進行分詞; (中文分詞工具:http://lxw1234.com/archives/2015/07/422.htm) 最後,每個URL的分詞結果
相關文章
相關標籤/搜索