大數據面試題

1.給定a、b兩個文件,各存放50億個url,每個url各佔64字節,內存限制是4G,讓你找出a、b文件共同的url?   假如每個url大小爲10bytes,那麼可以估計每個文件的大小爲50G×64=320G,遠遠大於內存限制的4G,所以不可能將其完全加載到內存中處理,可以採用分治的思想來解決。   Step1:遍歷文件a,對每個url求取hash(url)%1000,然後根據所取得的值將url
相關文章
相關標籤/搜索