Scala+Spark:對文件進行濾重

需求來源:有倆文件,裏面存着很多公司信息,但是有重複的,由於數據量太大,因此,決定寫個小腳本,用spark跑一下 先看一下文件格式,origin爲原始公司信息數據,spider爲爬蟲抓取的數據 整體邏輯: 文件求並集 ==> map 對公司名做hash用以做索引 ==> 根據公司名的hash值做groupby,取首位數據 ==> 保存文件 1、主文件: 2、工具包: processinfo: 關於
相關文章
相關標籤/搜索