MapReduce運行機制

    Hadoop中的MapReduce是一種用於並行處理大量數據集的基於YARN的系統,是一個使用簡單的軟件框架,基於它寫出來的應用程序能夠運行在由上千個商用機器組成的大型集羣上,並以一種可靠容錯式並行處理TB級別的數據集。     一個MapReduce作業(Job)通常會把輸入的數據集切片分爲若干獨立的數據塊,由Map任務以完成並行的方式處理它們。框架會對map函數的輸出先進行排序,然後把
相關文章
相關標籤/搜索