關於常見大數據算法以及思考

時間 2020-12-30

原文原文鏈接

給定a、b兩個文件，每個文件中有海量的數據，內存不足，讓你找出a、b文件共同數據? 思考：（1）布隆過濾器：在輸入數據時就將a文件的所有的數據的hashcode映射到一個集合（這裏假設是一個數組arr[max]），此時b文件每次讀取一條數據就計算出它的hashcode，加入此時爲i，去數組中查找arr[i],如果arr[i]存在，則表示a文件中也有這個數據。缺點：如果兩個數據的hashco

>>阅读原文<<