Spark流式處理框架案例網站流量分析&大數據生態圈介紹

時間 2019-12-07

標籤 spark 處理框架案例網站流量分析數據生態圈介紹欄目 Spark 简体版

原文原文鏈接

一，大數據框架（處理海量/流式數據）java 1. 以HADOOP 2.x爲體系的大數據生態系統處理框架node MapReduce：中間結果保存在磁盤。Shuffle過程：map將數據寫入到本地磁盤，reduce經過網絡的方式到各個map task所運行的機器中拷貝本身要處理的數據。python HDFS（分佈式存儲系統）mysql YARN（分佈式的集羣資源管理和任務調度框架）git Hiv

>>阅读原文<<