海量數據解決方案~

題目 問題一:現有海量日誌數據,要提取出某日訪問百度次數最多的那個IP(可以將題幹簡化,假設日誌中僅包含IP數據,也就是說待處理的文件中包含且僅包含全部的訪問IP,但內存空間有限,不能全部加載,假設只有512MB) 解決方案: 這是一道典型的分治思想的題目,這種問題處理起來套路比較固定,對於大部分的數據量比較大的前提的問題而言,分治都是一個可選的解決方案,但不一定是最優的,解決方法基本劃分爲三步走
相關文章
相關標籤/搜索