海量數據處理問題

1.給定一個大小超過 100G 的文件, 其中存在 IP 地址, 找到其中出現次數最多的 IP 地址(hash文件切分) 思路:顯然我們是不可能將這100G內存直接加載到內存中取處理的。所以我們可以對大文件進行劃分,前提當然是相同IP地址會被劃分在一塊。假定我們將這個文件分爲1024份,那麼一個文件的大小大概爲100M,然後利用哈希算法對IP地址進行映射,得到的值%1024,將同一個IP地址映射到
相關文章
相關標籤/搜索