大數據之Hadoop（四）

時間 2020-12-25

原文原文鏈接

查找場景設想一種場景，一種是需要在1億行數據中查到相同的行。這麼大的數據如果讀入內存中進行計算，那麼對機器的要求非常高非常耗費成本；其次，也有單點故障的風險。如果考慮用100臺機器進行計算，可以採用下面的算法： 1）計算每行數據的哈希值，並用hash值爲文件名創建文件；如果文件已經存在，則將改行數據追加到文件中 2）相同的行一定在同一個文件中，在同一個較小的文件中查找相同的行因此1一億數據查找

>>阅读原文<<