大數據面試題(海量數據)

1. 給定a、b兩個文件,各存放50億個url,每一個url各佔64字節,內存限制是4G,讓你找出a、b文件共同的url?    方案1:將大文件分紅可以被內存加載的小文件。     能夠估計每一個文件安的大小爲50G×64=320G,遠遠大於內存限制的4G。因此不可能將其徹底加載到內存中處理。考慮採起分而治之的方法。    s 遍歷文件a,對每一個url求取 ,而後根據所取得的值將url分別存儲
相關文章
相關標籤/搜索