Hadoop之小文件處理與調優經驗

1.什麼是小文件 小文件通常是指明顯小於Hadoop的block size的文件。Hadoop的block size通常是64MB,128MB或者256MB,如今通常趨向於設置的愈來愈大。後文要討論的內容會基於128MB,這也是CDH中的默認值。爲了方便後面的討論,Fayson這裏假定若是文件大小小於block size的75%,則定義爲小文件。但小文件不只是指文件比較小,若是Hadoop集羣中的
相關文章
相關標籤/搜索