三:基於Storm的實時處理大數據的平臺架構設計

一:元數據管理器
==>元數據管理器是系統平臺的「大腦」,在任務調度中有着重要的做用
【1】什麼是元數據?
--->中介數據,用於描述數據屬性的數據。
--->具體類型:描述數據結構,數據的具體位置,數據間的依賴關係,數據的處理過程,數據的快照信息等。
【2】爲什麼要引入元數據
--->實際案例:HDFS中的NameNode節點,Hive的MySql元數據表,MooseFs的Master節點,GFS(Google分佈式文件系統)中的Master節點等。
--->在大數據處理架構中引入元數據結構,描述數據流名稱,類型,字段結構,數據流轉過程等,便於各個數據處理系統間協調,使數據業務調度更加的精準,便捷。
【3】實時處理平臺任務調度
---->類SQL查詢插入語句:INSERT MySQL INTO domain_table SELECT * FROEM domain_streaming AS d WHERE LENGTH(d.domain) <= 10 AND d.value > 2000 AND d.seller LIKE %tony%;
---->任務調度:實時處理內部拓撲數據流調度(節點模塊化),不一樣組件之間的數據流調度,不一樣子系統之間的任務調度。
---->推薦方案:MySQL 或者 Zookeeper做爲元數據的存儲組件。



二:多節點統一配置管理
==>配置管理是一個系統的重要輔助功能,多節點的配置管理將比單節點的配置管理更爲複雜,但其重要性也更加明顯。
【1】多節點配置的相關問題
--->節點太多,須要配置的配置文件太多,太繁瑣。
--->配置須要修改時,很難保證每一個節點的配置統一,維護成本高
--->沒法針對性的對功能節點進行配置,致使配置文件過於臃腫
--->配置文件太分散,動態更新成本太高。
【2】幾種可行的分佈式配置解決方案
--->依賴於Storm主類自己的Config對象進行傳遞
--->使用MySQL進行配置文件的贊成存儲。
--->以Puppet爲核心的統一配置管理系統。
--->基於ZooKeeper的統一配置管理系統。
【3】基於ZooKeeper的統一配置管理解決方案




三:數據處理系統監控
==>一個完善的系統監控平臺將大大下降數據處理平臺的後期維護成本,也將是後期集羣擴展的重要支撐條件。
【1】系統監控的重要性
--->數據平臺做爲底層數據加工處理的基礎平臺,任何事故(包括服務以及系統的故障)對於上層應用的影響很大,而數據平臺的監控系統是故障快速定位,快速恢復的基本保障。
--->對於規模較小的數據處理平臺,規劃監控系統對於整個平臺的擴展是有預見性的。
【2】系統監控的幾大指標
--->系統層面:CPU,內存,磁盤的利用率,I/O負載,網絡流量
--->服務層:Storm的兩個基本服務(Nimbus和Supervisor),MQ,ZooKeeper,MySQL以及其餘相關組件服務
--->應用層:具體的拓撲,拓撲對應的狀態,具體工做Worker的狀態
【3】系統監控的初步解決方案
---->系統層解決方案:分佈式監控組件Ganglia或者Puppet+Zabbix結構
---->服務層解決方案:Puppet+服務探測腳本,ZooKeeper+服務探測腳本
---->應用層解決方案:使用ThriftAPI編寫Thrift Client,請求Nimbus內置的Thrift Server,獲取相關數據(Storm集羣以及Topology數據)


四:數據總線
==>讓數據流轉於數據總線中,方便各個數據處理模塊對數據的接入以及吐出,數據總線的設計將使數據流轉更加的便捷快速
【1】數據總線的概念
--->總線:計算機各個功能部件之間傳遞信息的公共通訊幹線
--->數據平臺中的數據總線概念:區別於計算機學科中數據總線的定義,在於強調各個數據處理組件,子系統可以進數據的傳遞。
【2】爲什麼要引入數據總線
--->數據執行跨平臺,跨語言,跨空間的處理(解藕,數據格式約定好就ok)
--->數據安全隔離,有效隔離不一樣組件,系統之間的直接操做
--->冗餘數據保護,避免數據在某個組件,系統中形成積壓
【3】基於MQ的數據總線設計




五:基於Storm的基礎平臺架構
==>咱們將把前面全部的相關平臺組件進行集成,組成圍繞Storm的一個實時數據處理的基礎平臺
【1】基礎架構圖詳解

【2】Storm平臺的發展方向
--->提供更加靈活的分組策略,應用更加多變複雜的業務需求
--->大數據平臺統一融合趨勢,兼容更多的分佈式相關組件的數據接口(Kafka,Hbse,Hive,Redis等)
--->集羣資源的統一調度管理,剝離自身資源調度功能,交由諸如Yarn,Mesos專門的組件統一調度(協調各個子系統的資源)
【3】大數據平臺思惟的延伸
--->數據源收集:互聯網數據金礦的挖掘
--->大數據平臺一體化融合思惟:隨着數據的急劇上升,大數據處理需求的多樣化,數據在不一樣平臺流通的需求迫切,整合不一樣大數據相關組件架構,進行一體化融合是一個大趨勢。
--->平臺即服務思惟:Docker技術的出現,讓大數據平臺的構建變得更簡單,平臺節點大規模快速安裝,資源獲得更好得隔離,數據平臺服務化安全

相關文章
相關標籤/搜索