Windows 7平臺基於Hadoop hdfs的中文分詞統計和排序

       以前的博客中,使用Spark對本地文件進行了中文分詞的統計和排序,但是隻能對本地文件進行處理。如果能使用基於Hadoop hdfs文件系統的文件,無疑會增加分佈式處理的強大功能。本文參考Hadoop WordCount的example,在Windows 7平臺上,對中文文本進行分詞及詞頻統計及排序。         首先要在Windows 7上部署Hadoop。Hadoop是基於ja
相關文章
相關標籤/搜索