Hadoop SequnceFile.Writer 壓縮模式及壓縮庫淺析

時間 2019-11-07

標籤 hadoop sequncefile.writer sequncefile writer 壓縮模式淺析欄目 Hadoop 简体版

原文原文鏈接

先說明SequnceFile的壓縮類型（Compression Type）分爲三種NONE，RECORD，BLOCK，經過配置項io.seqfile.compression.type指定：java

NONE, Do not compress records 即不壓縮linux

RECORD, Compress values only, each separately. 每條記錄都對value進行一次壓縮算法

BLOCK, Compress sequences of records together in blocks. 塊壓縮，當緩存的key和value字節大小達到指定的閾值，則進行壓縮，閾值由配置項io.seqfile.compress.blocksize指定，默認值爲1000000字節apache

RECORD，BLOCK使用的壓縮算法是由建立SequnceFile.Writer 時指定的CompressionOption決定的, CompressionOption中CompressionCodec codec屬性即爲壓縮編碼器, 不指定時默認爲org.apache.hadoop.io.compress.DefaultCodec 對應的底層壓縮庫爲zlib，除了DefaultCodec還有幾個其餘的CompressionCodec：GzipCodec Lz4Codec SnappyCodec BZip2Codec 這裏不作比較緩存

DefaultCodec在實現zlib壓縮的時候，能夠指定使用libhadoop.so（hadoop 框架提供的native庫）或java.util.zip庫。下面瞭解下如何開啓hadoop native庫或java zip庫：app

SequnceFile 默認使用的是org.apache.hadoop.io.compress.DefaultCodec 壓縮方式，使用的是Deflate的壓縮算法
框架

DefaultCodec在建立壓縮器時會執行類ZlibFactory.getZlibCompressor(conf)方法，實現代碼片斷：jvm

    return (isNativeZlibLoaded(conf)) ?
      new ZlibCompressor(conf) :
      new BuiltInZlibDeflater(ZlibFactory.getCompressionLevel(conf).compressionLevel());

當加載本地Zlib庫時，使用的是ZlibCompressor壓縮器類，不然使用BuiltInZlibDeflater類，BuiltInZlibDeflater類是調用java的java.util.zip.Inflater類實現；oop

其中isNativeZlibLoaded是根據NativeCodeLoader類是否已經加載hadoop native庫來判斷的，代碼以下：性能

// Try to load native hadoop library and set fallback flag appropriately
    if(LOG.isDebugEnabled()) {
      LOG.debug("Trying to load the custom-built native-hadoop library...");
    }
    try {
      System.loadLibrary("hadoop");
      LOG.debug("Loaded the native-hadoop library");
      nativeCodeLoaded = true;
    } catch (Throwable t) {
      // Ignore failure to load
      if(LOG.isDebugEnabled()) {
        LOG.debug("Failed to load native-hadoop with error: " + t);
        LOG.debug("java.library.path=" +
            System.getProperty("java.library.path"));
      }
    }
    if (!nativeCodeLoaded) {
      LOG.warn("Unable to load native-hadoop library for your platform... " +
               "using builtin-java classes where applicable");
    }

其中System.loadLibrary("hadoop"); 在linux上查找的就是libhadoop.so。

總結：當沒法加載本地的hadoop庫，hadoop會使用java.util.zip.Inflater類來對SequnceFile進行壓縮；當能夠加載到本地hadoop庫，則使用本地的庫。

下面來比較實用native hadoop庫和不使用native hadoop的性能區別。

不使用native hadoop即在jvm運行參數java.library.path中不包含native庫的路徑：

java.library.path=/usr/java/packages/lib/amd64:/usr/lib64:/lib64:/lib:/usr/lib

使用則在後面加上hadoop的native庫路徑:

java.library.path=/usr/java/packages/lib/amd64:/usr/lib64:/lib64:/lib:/usr/lib:$HADOOP_HOME/lib/native

虛擬機集羣:

50w 數據，sequnceFile壓縮模式爲RECORD, key爲隨機的10字節，value爲隨機200字節：

native lib disabled: 32689ms after compression 114.07 MB

native lib enabled： 30625ms after compression 114.07 MB

50w 數據，sequnceFile壓縮模式爲BLOCK, key爲隨機的10字節，value爲隨機200字節：