海量數據處理

當我們拿到一個題是海量數據問題,內存不能夠同時處理,首先考慮特殊數據結構能否處理比如:位圖和布隆過濾器。如果不能處理我們一般需要把大的文件哈西切割爲幾份,在分別處理。 哈希切割——top K問題  給一個超過100G大小的log file, log中存着IP地址, 設計算法找到出現次數最多的IP地址?如何找到top K的IP?如何直接用Linux系統命令實現?  我的思路:100G大小的文件,而且
相關文章
相關標籤/搜索