spark經典面試題

1、什麼是寬依賴,什麼是窄依賴,哪些算子是寬依賴,哪些是窄依賴 一、寬依賴:一個分區對應多個分區,這就代表有shuffle過程,父分區數據通過shuffle過程的hash分區器劃分子rdd。分佈式 例如:groupbykey   reducebykey   sortbykey等操做,shuffle能夠理解爲數據從原分區打亂重組到新分區函數 二、窄依賴:一個分區對應一個分區,這個過程沒有shuffl
相關文章
相關標籤/搜索