MR優化總結

優化前 1.熟知業務要求 2.熟知數據分佈狀態(是否傾斜、是不是多個小文件等),可使用採樣來了解數據 通用型優化策略 1.文件存儲格式 使用更加優化的格式的文件,例如Parquet、ORC,綜合來講,ORC最優。 2.文件壓縮 能夠在mr各階段啓用壓縮,例如:數據塊能夠被壓縮(reduce輸出能夠被壓縮)、map輸出數據能夠被壓縮(減小shuffle過程當中傳輸的數據量) 3.shuffle優化
相關文章
相關標籤/搜索