海量數據處理

時間 2020-12-27

原文原文鏈接

當我們拿到一個題是海量數據問題，內存不能夠同時處理，首先考慮特殊數據結構能否處理比如：位圖和布隆過濾器。如果不能處理我們一般需要把大的文件哈西切割爲幾份，在分別處理。哈希切割——top K問題給一個超過100G大小的log file, log中存着IP地址, 設計算法找到出現次數最多的IP地址？如何找到top K的IP？如何直接用Linux系統命令實現？我的思路：100G大小的文件，而且

>>阅读原文<<