Impala性能調優最佳實踐

時間 2019-12-07

原文原文鏈接

Impala性能調優最佳實踐概覽 1選擇合適的文件格式一般對於大數據集而言(每一個分區或者表的大小爲幾個G或者更大)，推薦使用Parquet文件格式。由於它按列存儲，單詞IO能夠請求更多的數據，另外它支持更好的壓縮算法對二進制文件進行壓縮。算法對於小表而言(每一個分區或者表的大小小於幾個G或者更小)，不一樣的存儲格式之間沒有明顯的性能差異。在小數據量時，能夠經過減小並行執行的機會(使用壓縮文件

>>阅读原文<<