spark partition和hdfs block的關係

背景:最近遇到了一個問題,一個程序利用hive sql 讀取數據時出現了輕微的數據傾斜(每一個task的輸入data 大小相似,可是executor的數據大小有差距),我懷疑是每一個partition的數據大小不一樣,致使的這個問題。(但我想的很明顯是錯的,若是使用的是textfile,每一個task處理的就是一個partition的數據,而每一個partition的數據應該是 每一個block的
相關文章
相關標籤/搜索