hadoop-MapReduce處理流程(一)生活實例對比

先來出道題引入一個重要的思想----分佈式計算思想 在上面的這個圖中,主要是對一個1T的文件進行排序操作,是不是可以將這個大文件切割成一個個的小文件盡心處理,就可以解決啊,但是按照正常來說,一共需要三次io,讀取文件進行切割一次,小文件內部排序一次,然後對小文件進行合併形成大文件一次,一共三次,並且大家是知道的,磁盤的io是非常慢的,所以,我能不能減少磁盤io的數量啊------這也就產生了第二步
相關文章
相關標籤/搜索