最近LinkedIn 開源其專用於實時數據的處理分佈式流處理框架 Samza——Samza,很是像Twitter的流處理系統Storm。不一樣的是Samza基於Hadoop,並且使用了LinkedIn自家的Kafka分佈式消息系統。git
Storm和Samza極其類似,就像LinkedIn的Chris Riccomini在博客中闡述的那樣:「[Samza]能夠幫助你構建應用,處理消息隊列——更新數據庫、計數以及其餘的聚合、轉換消息等等。」而這些其實都是很經典的Storm應用,只不過遷移到Samza之上了,Samza文檔也對比了這兩個系統。github
上個月,Samza在各類論壇和社區上被普遍傳播,其中有評論指出了Samza可能帶來的好處:數據庫
「跟不少人同樣,咱們使用Storm來處理基於Kafka的流數據,而後,再將這些數據發送到Hadoop上進行離線分析。若是能把這三個環境整合到一塊兒,就是一個很大的勝利。「apache
表面上看,這彷佛是一個很不錯的想法。Apache軟件基金會的項目主頁,介紹了搭配使用Kafka和YARN的特色和優點。segmentfault
高容錯: 若是服務器或者處理器出現故障,Samza將與YARN一塊兒從新啓動流處理器。 高可靠性:Samza使用Kafka來保證全部消息都會按照寫入分區的順序進行處理,絕對不會丟失任何消息。 可擴展性:Samza在各個等級進行分割和分佈;Kafka提供一個有序、可分割、可重部署、高容錯的系統;YARN提供了一個分佈式環境供Samza容器來運行。
至於Samza能不能像Storm同樣吸引大量的用戶和社區參與創新,還有待觀察。可是LinkedIn確定會像Twitter開發Storm同樣來保證Samza的發展,並且後者在可用性上更具優點,畢竟運行在YARN或者Mesos框架上的Samza多了一些靈活性。服務器
若是Samza將來有一個很好的前景,那麼YARN也對得起Hadoop社區在過去18月的「炒做」,它不只能夠運行Storm,還能夠運行Samza,甚至還能夠運行其餘不少的東西。這點很重要,畢竟不少軟件廠商都把大數據的「期貨」(甚至整個將來)壓在了Hadoop上,他們但願這個平臺能成爲最後的贏家。框架
以往對MapReduce技術的依賴限制了Hadoop的適用性,可是YARN已經開放了對大規模的流處理、交互式SQL查詢、機器學習和圖像處理負載的支持。隨着技術的突飛猛進,Hadoop成爲支撐全部大數據應用庫的想法變得更加現實。機器學習
via @GIGaom分佈式