海量數據處理相關問題

海量數據處理相關問題 轉載自: doocs/advanced-java 1. 如何從大量URL中找出相同的URL? 題目描述: 給定 a、b 兩個文件,各存放 50 億個 URL,每個 URL 各佔 64B,內存限制是 4G。請找出 a、b 兩個文件共同的 URL。 總體思路: 分而治之,進行哈希取餘。 對每個子文件進行HashSet統計。 解答思路: 由於內存只有4G,因此不可能一次性把所有ur
相關文章
相關標籤/搜索