Hadoop中TeraSort算法分析

1、概述 1TB排序通常用於衡量分佈式數據處理框架的數據處理能力。Terasort是Hadoop中的的一個排序作業,在2008年,Hadoop在1TB排序基準評估中贏得第一名,耗時209秒。那麼Terasort在Hadoop中是怎樣實現的呢?本文主要從算法設計角度分析Terasort作業。 2、算法思想 實際上,當我們要把傳統的串行排序算法設計成並行的排序算法時,通常會想到分而治之的策略,即:把要
相關文章
相關標籤/搜索