伴隨着信息科技突飛猛進的發展,信息呈現出爆發式的膨脹,人們獲取信息的途徑也更加多樣、更加便捷,同時對於信息的時效性要求也愈來愈高。舉個搜索場景中的例子,當一個賣家發佈了一條寶貝信息時,他但願的固然是這個寶貝立刻就能夠被賣家搜索出來、點擊、購買啦,相反,若是這個寶貝要等到次日或者更久才能夠被搜出來,估計這個大哥就要罵娘了。再舉一個推薦的例子,若是用戶昨天在淘寶上買了一雙襪子,今天想買一副泳鏡去游泳,可是卻發現系統在竭盡全力地給他推薦襪子、鞋子,根本對他今天尋找泳鏡的行爲視而不見,估計這哥們內心就會想推薦你妹呀。其實稍微瞭解點背景知識的碼農們都知道,這是由於後臺系統作的是天天一次的全量處理,並且大可能是在夜深人靜之時作的,那麼你今天白天作的事情固然要明天才能反映出來啦。html
全量數據處理使用的大可能是鼎鼎大名的hadoop或者hive,做爲一個批處理系統,hadoop以其吞吐量大、自動容錯等優勢,在海量數據處理上獲得了普遍的使用。可是,hadoop不擅長實時計算,由於它自然就是爲批處理而生的,這也是業界一致的共識。不然最近這兩年也不會有s4,storm,puma這些實時計算系統如雨後春筍般冒出來啦。先拋開s4,storm,puma這些系統不談,咱們首先來看一下,若是讓咱們本身設計一個實時計算系統,咱們要解決哪些問題。編程
好,若是僅僅須要解決這5個問題,可能會有無數種方案,並且各有千秋,隨便舉一種方案,使用消息隊列+分佈在各個機器上的工做進程就ok啦。咱們再繼續往下看。api
在2011年Storm開源以前,因爲Hadoop的火紅,整個業界都在喋喋不休地談論大數據。Hadoop的高吞吐,海量數據處理的能力使得人們能夠方便地處理海量數據。可是,Hadoop的缺點也和它的優勢一樣鮮明——延遲大,響應緩慢,運維複雜。數組
有需求也就有創造,在Hadoop基本奠基了大數據霸主地位的時候,不少的開源項目都是以彌補Hadoop的實時性爲目標而被創造出來。而在這個節骨眼上Storm橫空出世了。服務器
Storm帶着流式計算的標籤華麗麗滴出場了,看看它的一些賣點:app
下面,咱們簡單地認識一下Storm這個產品。框架
Storm是一個免費開源、分佈式、高容錯的實時計算系統。Storm令持續不斷的流計算變得容易,彌補了Hadoop批處理所不能知足的實時要求。Storm常常用於在實時分析、在線機器學習、持續計算、分佈式遠程調用和ETL等領域。Storm的部署管理很是簡單,並且,在同類的流式計算工具,Storm的性能也是很是出衆的。運維
Storm主要分爲兩種組件Nimbus和Supervisor。這兩種組件都是快速失敗的,沒有狀態。任務狀態和心跳信息等都保存在Zookeeper上的,提交的代碼資源都在本地機器的硬盤上。機器學習
下圖是一個Topology設計的邏輯圖的例子。分佈式
下圖是Topology的提交流程圖。
下圖是Storm的數據交互圖。能夠看出兩個模塊Nimbus和Supervisor之間沒有直接交互。狀態都是保存在Zookeeper上。Worker之間經過ZeroMQ傳送數據。
雖然,有些地方作得仍是不太好,例如,底層使用的ZeroMQ不能控制內存使用(下個release版本,引入了新的消息機制使用netty代替ZeroMQ),多語言支持更可能是噱頭,Nimbus還不支持HA。可是,就像當年的Hadoop那樣,不少公司選擇它是由於它是惟一的選擇。而這些先期使用者,反過來促進了Storm的發展。
Storm已經發展到0.8.2版本了,看一下兩年多來,它取得的成就:
Transactional topologies和Trident都是針對實際應用中遇到的重複計數問題和應用性問題的解決方案。能夠看出,實際的商用給予了Storm不少良好的反饋。
Storm被普遍應用於實時分析,在線機器學習,持續計算、分佈式遠程調用等領域。來看一些實際的應用:
若是,業務場景中須要低延遲的響應,但願在秒級或者毫秒級完成分析、並獲得響應,並且但願可以隨着數據量的增大而拓展。那就能夠考慮下,使用Storm了。
咱們只須要實現每一個分析的過程,而Storm幫咱們把消息的傳送和接受都完成了。更加激動人心的是,你只須要增長某個Bolt的並行度就可以解決掉某個結點上的性能瓶頸。
在流式處理領域裏,Storm的直接對手是S4。不過,S4冷淡的社區、半成品的代碼,在實際商用方面輸給Storm不止一條街。
若是把範圍擴大到實時處理,Storm就一點都不寂寞了。
固然,Storm也有Yarn-Storm項目,能讓Storm運行在Hadoop2.0的Yarn框架上,可讓Hadoop的MapReduce和Storm共享資源。
知乎上有一個挺好的問答: 問:實時處理系統(相似s4, storm)對比直接用MQ來作好處在哪裏? 答:好處是它幫你作了: 1) 集羣控制。2) 任務分配。3) 任務分發 4) 監控 等等。
須要知道Storm不是一個完整的解決方案。使用Storm你須要加入消息隊列作數據入口,考慮如何在流中保存狀態,考慮怎樣將大問題用分佈式去解決。解決這些問題的成本可能比增長一個服務器的成本還高。可是,一旦下定決定使用了Storm並解決了那些惱人的細節,你就能享受到Storm給你帶來的簡單,可拓展等優點了。
技術的發展突飛猛進,數據處理領域愈來愈多優秀的開源產品。Storm的過去是成功的,未來會如何發展,咱們拭目以待吧。
本文的重點是描述Storm的應用場景和將來的發展前景,讓你們對Storm有一個初步的印象。若是,要落地使用的朋友,在網上能夠找到不少優秀的Storm的技術文章。例如:Storm的核心貢獻者徐明明的博客和淘寶關於storm的文章。