海量數據處理

1)給一個超過100G大小的log file, log中存着IP地址, 設計算法找到出現次數最多的IP地址 2)與上題條件相同,如何找到top K的IP? 3)給兩個文件,分別有100億個query,我們只有1G內存,如何找到兩個文件交集?分別給出精確  算法和近似算法! 4)給上千個文件,每個文件大小爲1K—100M。給n個詞,設計算法對每個詞找到所有包含它的文件,你只有100K內存!  5)有
相關文章
相關標籤/搜索