給定a、b兩個文件,各存放50億個url,每個url各佔64字節,內存限制是4G,讓你找出a、b文件共同的url?

採用分治的思想   假如每個url大小爲64bytes,那麼可以估計每個文件的大小爲50G×64=320G,遠遠大於內存限制的4G,所以不可能將其完全加載到內存中處理,可以採用分治的思想來解決。   Step1:遍歷文件a,對每個url求取hash(url)%1000,然後根據所取得的值將url分別存儲到1000個小文件(記爲a0,a1,...,a999,每個小文件約300M);   Step2:
相關文章
相關標籤/搜索