20【在線日誌分析】之記錄一次Spark Streaming+Spark SQL的數據傾斜

時間 2021-01-09

原文原文鏈接

1.現象三臺機器都有產生executor，每臺都會產生tasks，但是其中只有一臺的task有input數據，其他機器的tasks都沒有數據。 2.猜想 2.1是不是數據傾斜? 是 2.2是數據量過大，group by時，導致key分佈不均? 比如key1 有98萬，key2有2萬,那麼shuffle時，肯定數據傾斜。但是我剛開始數據量不是很大，所以pass （就算數據量大，也很簡單處理，一般

>>阅读原文<<