Pig 處理大量的小文件

Mapreduce job很是合適處理大文件,不善於處理大量的小文件。在處理大量小文件的時候,由於一個mapperjob須要的數據幾乎所有來自網絡,創建鏈接和傳遞數據的開銷很大,因此致使job運行的時間變長,時間效率下降。同時大量的小文件會佔用不少的namespace。java 因此在pig中要避免出現大量的小文件。但有時候這樣的現象常常出現,尤爲是當咱們須要從一大堆數據中抽取幾列數據做分析的時候
相關文章
相關標籤/搜索