spark讀取gz文件與parquet文件

1.spark讀取hdfs gz的壓縮文件 spark1.5之後的版本支持直接讀取gz格式的文件,與讀取其餘純文本文件沒區別。 啓動spark shell的交互界面,按讀取普通文本文件的方式讀取gz文件:git sc.textFile("/your/path/*.gz").map{...} 以上的代碼就能搞定讀取gz壓縮文件的需求。github 2.spark讀取parquet格式文件 spark
相關文章
相關標籤/搜索