MapReduce中的map個數

時間 2019-12-12

原文原文鏈接

在map階段讀取數據前，FileInputFormat會將輸入文件分割成split。split的個數決定了map的個數。影響map個數（split個數）的主要因素有：url

1) 文件的大小。當塊（dfs.block.size）爲128m時，若是輸入文件爲128m，會被劃分爲1個split；當塊爲256m，會被劃分爲2個split。spa

2) 文件的個數。FileInputFormat按照文件分割split，而且只會分割大文件，即那些大小超過HDFS塊的大小的文件。若是HDFS中dfs.block.size設置爲128m，而輸入的目錄中文件有100個，則劃分後的split個數至少爲100個。code

3) splitsize的大小。分片是按照splitszie的大小進行分割的，一個split的大小在沒有設置的狀況下，默認等於hdfs block的大小。但應用程序能夠經過兩個參數來對splitsize進行調節orm

InputSplit=Math.max(minSize, Math.min(maxSize, blockSize)blog

其中：get

minSize=mapred.min.split.sizeinput

maxSize=mapred.max.split.size博客

咱們能夠在MapReduce程序的驅動部分添加以下代碼：it

TextInputFormat.setMinInputSplitSize(job,1024L); // 設置最小分片大小form

TextInputFormat.setMaxInputSplitSize(job,1024×1024×10L); // 設置最大分片大小

總結以下：

當mapreduce.input.fileinputformat.split.maxsize > mapreduce.input.fileinputformat.split.minsize > dfs.blockSize的狀況下，此時的splitSize 將由mapreduce.input.fileinputformat.split.minsize參數決定

當mapreduce.input.fileinputformat.split.maxsize > dfs.blockSize > mapreduce.input.fileinputformat.split.minsize的狀況下，此時的splitSize 將由dfs.blockSize配置決定

當dfs.blockSize > mapreduce.input.fileinputformat.split.maxsize > mapreduce.input.fileinputformat.split.minsize的狀況下，此時的splitSize將由mapreduce.input.fileinputformat.split.maxsize參數決定。

若是，您認爲閱讀這篇博客讓您有些收穫，不妨點擊一下右下角的【推薦】。
若是，您但願更容易地發現個人新博客，不妨點擊一下左下角的【關注我】。
若是，您對個人博客所講述的內容有興趣，請繼續關注個人後續博客，我是【劉超★ljc】。

本文版權歸做者和博客園共有，歡迎轉載，但未經做者贊成必須保留此段聲明，且在文章頁面明顯位置給出原文鏈接，不然保留追究法律責任的權利。