Scala+Spark:對文件進行濾重

時間 2021-01-13

原文原文鏈接

需求來源：有倆文件，裏面存着很多公司信息，但是有重複的，由於數據量太大，因此，決定寫個小腳本，用spark跑一下先看一下文件格式，origin爲原始公司信息數據，spider爲爬蟲抓取的數據整體邏輯：文件求並集 ==> map 對公司名做hash用以做索引 ==> 根據公司名的hash值做groupby，取首位數據 ==> 保存文件 1、主文件： 2、工具包： processinfo：關於

>>阅读原文<<