Storm快速理解

時間 2019-11-13

標籤 storm 快速理解欄目 Storm 简体版

原文原文鏈接

轉自：http://blog.csdn.net/colorant/article/details/8256039git

更多雲計算相關項目快速理解文檔 http://blog.csdn.net/colorant/article/details/8255910github

== 是什麼 ==apache

目標Scope（解決什麼問題）編程

分佈式實時大規模數據流的處理架構

官方定義併發

Stormis a distributed realtime computation system,Storm exposes a set of primitives for doing realtime computationapp

我的理解框架

Storm所說的Realtime，我的理解不是強調批量數據處理的快速和隨機性，而更多的是強調對實時數據流的連續處理（Stream），相對的概念是HadoopMapReduce框架的Batch處理模式，是一個分佈式的Stream模式的數據處理框架。分佈式

== 實現 ==ide

Feature

continuous processon data streams ：連續的數據流處理，Storm之因此爲Storm的根本了。

Scalable ：一方面，Storm集羣的大小規模的伸縮性很好，另外一方面，對於一個正在運行的Topology，能夠動態的改變它的併發度，動態的增減Worker，thread, task等。

Guarantees no data loss ：主要體現爲數據處理流程中的Ack機制，用來從新加載處理失敗的數據流。

Extremely robust/ Fault-tolerant ：總之就是魯棒性，容錯性好。我的理解主要是緣於Nimbus daemon 和 Supervisor daemons 是 fail-fast 和無狀態的（全部的狀態都保存在Zookeeper或本地磁盤中），所以Daemon能夠快速的重啓和恢復。

Programming language agnostic ：支持多語言編程，我的理解就是使用thrift生成server/Client/Topology的各個組件的接口，可使用多種語言去具體實現。

核心思路，架構

Storm處理數據的基本單位是Tuple，也就是一個通用的數據容器，支持一些基本數據類型和自定義類型。在Storm的Topology中流動的是由不限定數目的Tuple組成的數據流（Stream）

Tuple 數據流在Topology中傳遞處理，所謂的Topology實際上就是由各類數據處理節點連接成的數據處理鏈，和絕大多數流數據處理框架很相似，好比處理多媒體數據的Gstreamer等。 Spout節點生成Tuple數據流，各類Bolt節點處理轉換並輸出Tuple流。

從Cluster集羣的角度來看，和多數分佈式數據處理系統同樣，由任務監督分配和數據處理兩部分組成。NimBus Daemon負責分發任務監控狀態等，Supervisor Daemon負責實際執行Topology

從結構上說，Storm提供的就是一個搭建數據處理鏈，協調數據流動，方便動態水平擴展集羣的一個面向Stream的分佈式數據處理框架。至於這個框架具體如何獲取和處理Stream數據，各類Input, Output, Filter，Join，Aggregation邏輯徹底取決於具體Spout和Bolt的實現。

適用領域

整體而言，Storm針對的是實時連續數據流的持續處理。其Realtime概念並不側重於自己處理數據的效率有多高。相反，我的以爲爲了其拓撲結構的靈活性，數據在多層連接的Spout和Bolt中流動的時候必然帶來必定的額外數據傳輸開銷，此外其保證數據處理魯棒性的Ack機制也必然帶來額外的性能損失。因此純粹論數據的高效處理，不是Storm的強項。數據的連續及時處理纔是Storm的強項和適用領域。常見的應用包括各類實時數據/LOG等的預處理，過濾，統計，持久化，實時狀態的監控分析等

細節

能夠指定各個Bolt處理節點的併發度，便於靈活調度任務

== 相關項目 ==

上下游項目

Trident

Trident實際是Storm代碼的一部分，是構建在Storm框架上的一個更高Level的抽象。本質上說，就是在Storm的Stream處理模式上，用Spout和Bolt實現了一些常見的業務邏輯的支持如Join/Filter/Aggregation/Grouping等，讓開發者更方便的使用Storm。

各類 spout 實現 : https://github.com/nathanmarz/storm/wiki/Spout-implementations 如何從各類外部系統獲取Tuple數據流供Storm處理，固然取決於各類Spout的實現。

相似項目

S4 ：http://incubator.apache.org/s4/ S4 is a general-purpose, distributed,scalable, fault-tolerant, pluggable platform that allows programmers to easilydevelop applications for processing continuous unbounded streams of data. 看起來和Storm的Scope徹底一致。從實現上看大概在集羣的動態性上的支持較差，此外不支持可靠的處理數據，可能丟失事件（這個可能不能說是BUG或缺失，大概是設計思路上的不一樣）