布隆過濾器和海量數據面試題

哈希切割topK問題 給一個超過100G大小的logfile,log中存着ip地址,設計算法找到出現次數最多的ip地址,與上題條件相同,如何找到topK的ip?如何直接用Linux系統命令實現?算法 (1)topK的ip設計 思路:使用堆索引 (2)尋找次數最多ip 思路:分割成多個文件,分別多每一個文件進行統計,統計方式用hash,ip爲key,次數爲value,而後就能夠統計出每一個ip出現的
相關文章
相關標籤/搜索