海量數據處理問題

哈希切割top K問題 問題描述: 給一個超過100G大小的log file, log中存着IP地址, 設計算法找到出現次數最多的IP地址? 思路: 一個log file的大小爲100G,計算機的內存有限,考慮將其切分成1000個小文件, 統計次數,我們可以考慮哈希表,相同的IP會映射到同一個小文件中,此時小文件的內存就不受到內存的影響,可統計IP出現的次數 使用哈希表,必然考慮哈希衝突的問題,如
相關文章
相關標籤/搜索