spark partition和hdfs block的關係

時間 2019-12-06

標籤 spark partition hdfs block 關係欄目 Spark 简体版

原文原文鏈接

背景：最近遇到了一個問題，一個程序利用hive sql 讀取數據時出現了輕微的數據傾斜（每一個task的輸入data 大小相似，可是executor的數據大小有差距），我懷疑是每一個partition的數據大小不一樣，致使的這個問題。（但我想的很明顯是錯的，若是使用的是textfile，每一個task處理的就是一個partition的數據，而每一個partition的數據應該是每一個block的

>>阅读原文<<