數據倉庫系列(7):數據傾斜

數據傾斜主要分爲MapReduce數據傾斜與Hive數據傾斜,接下來分別闡述。 MapReduce數據傾斜: (一)Map端 在Map端讀數據時,由於讀人數據的文件大小分佈不均勻,因此會導致有些Map Instance 讀取並且處理的數據特別多,而有些Map Instance 處理的數據特別少,造成Map端長尾。以下兩種情況可能會導致Map端長尾: 上游表文件的大小特別不均勻,並且小文件特別多,導
相關文章
相關標籤/搜索