數據分析面試題整理（自用）

時間 2021-01-11

原文原文鏈接

數據提取問題 1.Hadoop、Hive、Spark之間的關係 Hadoop: 管理橫跨成百上千臺機器的大量數據。（底層） MapReduce(通用、強壯、保守)/Tez/Spark: 如何分配工作，機器之間如何通信交換數據以完成複雜的計算。（中間） Map階段：幾百臺機器同時讀取文件的各個部分，分別把讀到的部分分別統計出詞頻，類似(hello,12100次) Reduce階段：將統計結果再次進行

>>阅读原文<<