Windows 7平臺基於Hadoop hdfs的中文分詞統計和排序

時間 2021-01-09

標籤 windows 7 hadoop hdfs IKAnalyzer code 欄目 Windows 简体版

原文原文鏈接

以前的博客中，使用Spark對本地文件進行了中文分詞的統計和排序，但是隻能對本地文件進行處理。如果能使用基於Hadoop hdfs文件系統的文件，無疑會增加分佈式處理的強大功能。本文參考Hadoop WordCount的example，在Windows 7平臺上，對中文文本進行分詞及詞頻統計及排序。首先要在Windows 7上部署Hadoop。Hadoop是基於ja

>>阅读原文<<