LinkedIn 開源其專用於實時數據的處理分佈式流處理框架 Samza

時間 2019-12-21

標籤 linkedin 開源用於實時數據處理分佈式框架 samza 欄目系統架構简体版

原文原文鏈接

最近LinkedIn 開源其專用於實時數據的處理分佈式流處理框架 Samza——Samza，很是像Twitter的流處理系統Storm。不一樣的是Samza基於Hadoop，並且使用了LinkedIn自家的Kafka分佈式消息系統。git

Storm和Samza極其類似，就像LinkedIn的Chris Riccomini在博客中闡述的那樣：「[Samza]能夠幫助你構建應用，處理消息隊列——更新數據庫、計數以及其餘的聚合、轉換消息等等。」而這些其實都是很經典的Storm應用，只不過遷移到Samza之上了，Samza文檔也對比了這兩個系統。github

上個月，Samza在各類論壇和社區上被普遍傳播，其中有評論指出了Samza可能帶來的好處：數據庫

「跟不少人同樣，咱們使用Storm來處理基於Kafka的流數據，而後，再將這些數據發送到Hadoop上進行離線分析。若是能把這三個環境整合到一塊兒，就是一個很大的勝利。「apache

表面上看，這彷佛是一個很不錯的想法。Apache軟件基金會的項目主頁，介紹了搭配使用Kafka和YARN的特色和優點。segmentfault

高容錯：  若是服務器或者處理器出現故障，Samza將與YARN一塊兒從新啓動流處理器。
高可靠性：Samza使用Kafka來保證全部消息都會按照寫入分區的順序進行處理，絕對不會丟失任何消息。
可擴展性：Samza在各個等級進行分割和分佈；Kafka提供一個有序、可分割、可重部署、高容錯的系統；YARN提供了一個分佈式環境供Samza容器來運行。