Spark詞頻統計測試

時間 2021-01-08

原文原文鏈接

數據：中華書局白話版24史，總計大小93M，已經存放到HDFS集羣分析語言：python 分析框架：Spark 1.6.0 第三方包：jieba（結巴分詞）可視化工具：D3.JS 源代碼： from pyspark import SparkConf, SparkContext import jieba,Wordfilter,datetime,WordCloud,webbrowser from

>>阅读原文<<