spark & 文件壓縮

hdfs中存儲的文件通常都是多副本存儲,對文件進行壓縮,不只能夠節約大量空間,適當的存儲格式還能對讀取性能有很是大的提高。web 文本文件壓縮 bzip2sql 壓縮率最高,壓縮解壓速度較慢,支持split。apache import org.apache.hadoop.io.compress.BZip2Codec rdd.saveAsTextFile("codec/bzip2",classOf[
相關文章
相關標籤/搜索