海量數據問題分析

所謂的海量數據問題不是什麼高大上的問題,其實就是當數據量大到我們普通計算機的內存不夠用了。 下面藉助幾個問題來簡單分析一下: 一. 給一個超過100G大小的日誌文件, 日誌中存着IP地址, 設計算法找到出現次數最多的IP地址? 如圖所示: 1. 將日誌文件中的 每一個 ip%1000,這樣就能將100G的文件分成1000個小文件,每個文件大概在100M左右,這樣我們普通電腦的內存就足夠用了。 2.
相關文章
相關標籤/搜索