海量數據面試題

哈希切割 給一個超過100G大小的log file, log中存着IP地址, 設計算法找到出現次數最多的IP地址? 思路 : 1 . 使用哈希切割 , 將100G大小的文件分成1000分小文件 , 2 . 使用 HashStr( IP )%1000 將每個文件上的IP地址映射到哈希表中 , 然後將IP地址轉化成整數形式 3 . 使用Key Value 模型 , 將IP地址出現的次數保存起來 4 .
相關文章
相關標籤/搜索