Spark詞頻統計測試

數據:中華書局白話版24史,總計大小93M,已經存放到HDFS集羣 分析語言:python 分析框架:Spark 1.6.0 第三方包:jieba(結巴分詞) 可視化工具:D3.JS 源代碼: from  pyspark import SparkConf, SparkContext import jieba,Wordfilter,datetime,WordCloud,webbrowser from
相關文章
相關標籤/搜索