海量數據處理方法及應用

一、哈希切割top K問題 1. 給一個超過100G大小的log file, log中存着IP地址, 設計算法找到出現次數最多的IP地址? (1)首先使用散列函數HashFunc(ip)將每一個IP地址轉化爲整型,再通過HashFunc(ip)%1000使得每一個IP各自進入到所切分的1000個小文件中,餘數是多少就映射到多少號文件中,這樣做能保證相同IP進入到同一文件中; (2)接着在每一個小文
相關文章
相關標籤/搜索