大數據平臺搭建:大數據基礎架構選型

大數據越來越受到重視的今天,企業級數據平臺搭建,也成爲更加普遍的需求。而要搭建起符合自身需求以及提供穩定支持的數據平臺系統,基礎架構的選型是非常重要的。今天我們就來聊聊大數據基礎架構選型。

大數據平臺搭建

在企業數據團隊當中,數據平臺基礎架構選型,通常由資深的開發工程師或者架構師來完成。這就要求相關人員,結合具體場景和需求,綜合考慮成本、投入等因素,選擇合適的技術架構。

大數據基礎架構,目前行業當中主流的選擇,基本都集中在Hadoop生態下。一方面是因爲Hadoop技術的成熟穩定,另一方面也有歷史原因,因爲很多企業早期的框架,都是基於Hadoop的。

主流大數據基礎架構:

傳統數據架構

傳統數據架構,在進入大數據時代之後,因爲數據量、性能等問題導致系統無法正常使用,需要進行升級改造。通常採取的是保留ETL的動作,將數據經過ETL動作進入數據存儲。這類數據架構,所能滿足的數據分析需求依舊以BI場景爲主。

流式架構

在傳統大數據架構的基礎上,流式架構數據全程以流的形式處理,在數據接入端將ETL替換爲數據通道。經過流處理加工後的數據,以消息的形式直接推送給了消費者。存儲部分在外圍系統以窗口的形式進行存儲。適用於預警、監控、對數據有時效性有更高要求的場景。

大數據基礎架構選型

Lambda架構

Lambda架構算大數據系統裏面舉足輕重的架構,數據通道分爲兩條分支:實時流和離線。實時流依照流式架構,保障了其實時性,而離線則以批處理方式爲主,保障了最終一致性。適用於同時存在實時和離線需求的需求場景。

Kappa架構

Kappa架構在Lambda的基礎上進行了優化,將實時和流部分進行了合併,將數據通道以消息隊列進行替代。對於Kappa架構來說,依舊以流處理爲主,但是數據卻在數據湖層面進行了存儲,當需要進行離線分析或者再次計算的時候,則將數據湖的數據再次經過消息隊列重播一次則可。

大數據平臺搭建,大數據基礎架構選型

關於大數據平臺搭建:大數據基礎架構選型,以上就是今天的分享內容了。大數據繼續發展,企業對於數據平臺搭建的需求,將越來越普遍,不管是基於原有的系統平臺進行改造,還是搭建全新的平臺架構,都需要更多專業人才的支持。