Spark 使用 parquet 文件存儲格式

1)若是說 HDFS 是大數據時代分佈式文件系統首選標準,那麼 parquet 則是整個大數據時代文件存儲格式實時首選標準。sql 2)速度更快:從使用 spark sql 操做普通文件 CSV 和 parquet 文件速度對比上看,絕大多數狀況會比使用 csv 等普通文件速度提高10倍左右,在一些普通文件系統沒法在 spark上成功運行的狀況下,使用 parquet 不少時候能夠成功運行。分佈式
相關文章
相關標籤/搜索