海量數據處理

1)給一個超過100G大小的log file, log中存着IP地址, 設計算法找到出現次數最多的IP地址? 初步分析: 100G普通機器內存中肯定是放不下的,目前使用的IP地址相當於一個32位的字符串,所以我們考慮切分,假設有1G可用內存我們切分爲100份,那我們需要把這100個文件全部遍歷,每一次出現的IP地址進行統計,最後找出出現次數最多的IP地址,此辦法可行但是效率不高。 優化: 把這32位
相關文章
相關標籤/搜索