大數據之Hadoop(四)

查找場景 設想一種場景,一種是需要在1億行數據中查到相同的行。這麼大的數據如果讀入內存中進行計算,那麼對機器的要求非常高非常耗費成本;其次,也有單點故障的風險。如果考慮用100臺機器進行計算,可以採用下面的算法: 1)計算每行數據的哈希值,並用hash值爲文件名創建文件;如果文件已經存在,則將改行數據追加到文件中 2)相同的行一定在同一個文件中,在同一個較小的文件中查找相同的行 因此1一億數據查找
相關文章
相關標籤/搜索