【秋招】攜程_數據分析崗_面試題整理

1. spark用過嗎?那你覺得和MR這兩個計算框架中間產生的數據傾斜怎麼處理     1)數據傾斜指的是key的分佈嚴重不均,如wordCount中,有80%的數據都是('aaa',1),這樣大部分數據交給一個reduce,剩下的20%數據分散到不同的reduce處理     2)造成數據傾斜的原因:         a. group by維度小,某值數量多         b. distinc
相關文章
相關標籤/搜索