csv、parquet、orc讀寫性能和方式

背景      最近在做一個大數據分析平臺的項目,項目開發過程中使用spark來計算工作流工程中的每一個計算步驟,多個spark submit計算提交,構成了一個工作流程的計算。其中使用csv來作爲多個計算步驟之間的中間結果存儲文件,但是csv作爲毫無壓縮的文本存儲方式顯然有些性能不夠,所以想要尋找一個存儲文件效率更高或者執行效率更高的文件格式作爲替代品。   存儲方式     csv      
相關文章
相關標籤/搜索