『數據結構』海量數據處理

本篇博客咱們經過幾個經典的問題來看一下計算機中處理海量數據的經常使用方法。web 哈希切分 問題:給定一個超過100G大小的日誌文件,文件中保存着IP地址,設計算法找出出現次數最多的IP地址?如何找到出現次數topK的IP?如何直接用Linux命令實現?算法 找到出現次數最多或者前K多的IP地址並不困難,直接使用優先級隊列就能夠解決該問題。這道題真正困難的是100G大小的日誌文件,由於咱們經常使用
相關文章
相關標籤/搜索