關於常見大數據算法以及思考

給定a、b兩個文件,每個文件中有海量的數據,內存不足,讓你找出a、b文件共同數據? 思考: (1) 布隆過濾器: 在輸入數據時就將a文件的所有的數據的hashcode映射到一個集合(這裏假設是一個數組arr[max]),此時b文件每次讀取一條數據就計算出它的hashcode,加入此時爲i,去數組中查找arr[i],如果arr[i]存在,則表示a文件中也有這個數據。 缺點:如果兩個數據的hashco
相關文章
相關標籤/搜索