Hadoop第一彈:與傳統數據處理相比較

對10T大小行存儲的文本文件進行重複行處理: 傳統處理: 環境:PC機1臺,8G內存 第一步:讀文件並進行取模將相同行寫入小文件 第二步:分別讀取小文件並進行重複行的處理 Hadoop處理: 環境:PC機100臺,8G內存 第一步:文件進行線性切割然後平均存儲在100臺PC機上 第二步:每臺PC機讀取當前機器上的切割後的文件,進行取模計算並寫入小文件 第三步:每臺PC機分別拉取與自己編號相同的小文
相關文章
相關標籤/搜索