海量數據處理面試題

海量數據處理思路分析題 1.給一個超過100G大小的log file,log中存着ip地址,設計算法找到出現次數最多的ip地址? 解決方法:哈希切割topK。將100G的大文件分成1000份,根據同一個哈希函數HashFunc將ip映射到向對應的文件(每個文件的大小可以在內存中處理)中,相同的ip一定會被放在同一個文件中。然後處理每一個文件,找出出現次數最多的ip,每個文件中最大的value對應的
相關文章
相關標籤/搜索