面試題---大數據處理

1、給一個超過100G大小的log file ,log中存着IP地址,設計算法找到出現次數最多的IP地址? 我們先考慮一下,100G大小的文件,一般是無法存到普通的計算機中的,我們的硬盤根本沒這麼大; 我們可以使用前面講的位圖,一個整形32位,最多可以存42億多的數據,100G的大文件,最多需要3.2G就可以放進去,但是卻難以統計最多的IP地址。 爲了解決上面的問題,我們可以把大文件放到小文件中,
相關文章
相關標籤/搜索