海量數據處理思路

1、給一個超過100G大小的log file, log中存着IP地址, 設計算法找到出現次數最多的IP地址。 思路分析: 1.使用字符串哈希算法將相同IP 分配到一個文件中。將這些IP分配到1000個文件中。 2.由於字符串哈希算法會出現誤差。所以再統計每個人文件中的top3 IP(使用Key_Value模型)。 3.將每個文件中的top3合併,再找出出現次數最多的IP即可。 2、給定100億個整
相關文章
相關標籤/搜索