hadoop-MapReduce處理流程（一）生活實例對比

時間 2021-01-05

原文原文鏈接

先來出道題引入一個重要的思想----分佈式計算思想在上面的這個圖中，主要是對一個1T的文件進行排序操作，是不是可以將這個大文件切割成一個個的小文件盡心處理，就可以解決啊，但是按照正常來說，一共需要三次io，讀取文件進行切割一次，小文件內部排序一次，然後對小文件進行合併形成大文件一次，一共三次，並且大家是知道的，磁盤的io是非常慢的，所以，我能不能減少磁盤io的數量啊------這也就產生了第二步

>>阅读原文<<