海量數據處理面試題(1) 找出兩文件種包含的相同的url

問題:給定a、b兩個文件,各存放50億個url,每個url各佔64字節,內存限制是4G,讓你找出a、b文件共同的url? 分析:50億個url,每個url64字節,就是320G,顯然是無法一次讀入內存的。因此這裏需要採用分治法。 方案:分治法,分支方法:哈希 步驟: 如圖所示: 1 將AB兩個文件,用相同的哈希函數,分解爲1000個獨立哈希值相同的小文件,這裏哈希函數的設計是個重點。 2 哈希值不
相關文章
相關標籤/搜索