海量數據處理

給一個超過100G大小的log file, log中存着IP地址, 設計算法找到出現次數最多的IP地址? 思路:首先100G大小的文件,計算機內存無法存儲,所以我們解決問題首先不能考慮把文件放在內存中在去遍歷統計次數。但是我們可以數據結構中的哈希表來處理。 1)切割文件:將100G的大文件文件分割爲1000份(分多少份取決你處理文件的大小)。 2)計算ip的位置:ip是字符串,我們通過字符串哈希函
相關文章
相關標籤/搜索