SequenceFile和MapFile

  HDFS和MR主要針對大數據文件來設計,在小文件處理上效率低.解決方法是選擇一個容器,將這些小文件包裝起來,將整個文件作爲一條記錄,可以獲取更高效率的儲存和處理,避免多次打開關閉流耗費計算資源.hdfs提供了兩種類型的容器 SequenceFile和MapFile。   小文件問題解決方案 在原有HDFS基礎上添加一個小文件處理模塊,具體操作流程如下: 當用戶上傳文件時,判斷該文件是否屬於小文
相關文章
相關標籤/搜索