如何在Hadoop中處理小文件-續

Fayson在前面的文章《如何在Hadoop中處理小文件》和《如何使用Impala合併小文件》中介紹了什麼是Hadoop中的小文件,以及常見的處理方法。這裏Fayson再補充一篇文章進行說明。git   HDFS中太多的小文件每每會帶來性能降低以及擴展性受限問題,爲了不這個問題,咱們通常須要控制每一個文件儘量的接近HDFS block大小好比256MB,或者是block size的幾倍。githu
相關文章
相關標籤/搜索