大數據分析處理框架——離線分析(hive,pig,spark)、近似實時分析(Impala)和實時分析(storm、spark streaming)...

大數據分析處理架構圖 數據源: 除該種方法以外,還能夠分爲離線數據、近似實時數據和實時數據。按照圖中的分類其實就是說明了數據存儲的結構,而特別要說的是流數據,它的核心就是數據的連續性和快速分析性; 計算層: 內存計算中的Spark是UC Berkeley的最新做品,思路是利用集羣中的全部內存將要處理的數據加載其中,省掉不少I/O開銷和硬盤拖累,從而加快計算。而Impala思想來源於Google D
相關文章
相關標籤/搜索