java海量數據的簡單清洗

這周接到了一個對爬取數據進行清理的任務,具體需求爲,有一張接近百萬的key值表,每個key對應一個對象,可是在es中存在大量的類似對象,須要按照類似度清除key值表中重複的對象。java 下面簡單的介紹一下本人的思路。web 文件準備 由於百萬級數據的清理在單機模式下實際上是很耗時的操做,因此咱們須要考慮到一些異常的發生,而且要暫存一下重複的key值,因此須要構建三個臨時文件json touch
相關文章
相關標籤/搜索