【秋招】攜程_數據分析崗_面試題整理

1. spark用過嗎?那你以爲和MR這兩個計算框架中間產生的數據傾斜怎麼處理html     1)數據傾斜指的是key的分佈嚴重不均,如wordCount中,有80%的數據都是('aaa',1),這樣大部分數據交給一個reduce,剩下的20%數據分散到不一樣的reduce處理算法     2)形成數據傾斜的緣由:網絡         a. group by維度小,某值數量多app      
相關文章
相關標籤/搜索