數據分析面試題整理(自用)

數據提取問題 1.Hadoop、Hive、Spark之間的關係 Hadoop: 管理橫跨成百上千臺機器的大量數據。(底層) MapReduce(通用、強壯、保守)/Tez/Spark: 如何分配工作,機器之間如何通信交換數據以完成複雜的計算。(中間) Map階段:幾百臺機器同時讀取文件的各個部分,分別把讀到的部分分別統計出詞頻,類似(hello,12100次) Reduce階段:將統計結果再次進行
相關文章
相關標籤/搜索