20【在線日誌分析】之記錄一次Spark Streaming+Spark SQL的數據傾斜

1.現象 三臺機器都有產生executor,每臺都會產生tasks,但是其中只有一臺的task有input數據,其他機器的tasks都沒有數據。 2.猜想 2.1是不是數據傾斜? 是 2.2是數據量過大,group by時,導致key分佈不均? 比如key1 有98萬,key2有2萬,那麼shuffle時,肯定數據傾斜。但是我剛開始數據量不是很大,所以pass  (就算數據量大,也很簡單處理,一般
相關文章
相關標籤/搜索