Hive文件存儲格式 :Parquet sparksql ,impala的殺手鐗

hive表的源文件存儲格式有幾類: 一、TEXTFILE 默認格式,建表時不指定默認爲這個格式,存儲方式:行存儲 導入數據時會直接把數據文件拷貝到hdfs上不進行處理。源文件能夠直接經過hadoop fs -cat 查看 磁盤開銷大 數據解析開銷大,壓縮的text文件 hive沒法進行合併和拆分 二、SEQUENCEFILE 一種Hadoop API提供的二進制文件,使用方便、可分割、
相關文章
相關標籤/搜索