面試- 阿里-. 大數據題目- 給定a、b兩個文件,各存放50億個url,每個url各佔64字節,內存限制是4G,讓你找出a、b文件共同的url?

轉載:https://www.cnblogs.com/aspirant/p/7154551.html 假如每個url大小爲10bytes,那麼可以估計每個文件的大小爲50G×64=320G,遠遠大於內存限制的4G,所以不可能將其完全加載到內存中處理,可以採用分治的思想來解決。   Step1:遍歷文件a,對每個url求取hash(url)%1000,然後根據所取得的值將url分別存儲到1000個小
相關文章
相關標籤/搜索