Hadoop第一彈：與傳統數據處理相比較

時間 2020-12-21

原文原文鏈接

對10T大小行存儲的文本文件進行重複行處理：傳統處理：環境：PC機1臺，8G內存第一步：讀文件並進行取模將相同行寫入小文件第二步：分別讀取小文件並進行重複行的處理 Hadoop處理：環境：PC機100臺，8G內存第一步：文件進行線性切割然後平均存儲在100臺PC機上第二步：每臺PC機讀取當前機器上的切割後的文件，進行取模計算並寫入小文件第三步：每臺PC機分別拉取與自己編號相同的小文

>>阅读原文<<