Storm入門,看這篇就夠了

時間 2019-11-19

標籤 storm 入門看這夠了欄目 Storm 简体版

原文原文鏈接

部分一：Srorm 簡介

1.1 Storm是實時的數據流，Hadoop是批量離線數據

起源背景html

Twitter 開源的一個相似於Hadoop的實時數據處理框架
Storm是由Nathan Marz 在BackType公司【作社交數據分析，數據量大】工做中實現的，這家公司後來被Twitter收購。

Ps:·Hadoop分佈式存儲和分佈式計算兩個難題所有解決了。可是缺點就是不能實時處理數據，Storm的做者就像寫一個這樣實時數據處理場景的框架出來java

1.2 Storm應用場景【實時處理數據】

推薦系統：實時推薦，根據下單或加入購物車等操做
網站統計：實時銷量，流量統計
監控預警系統，金融系統

1.3Storm特性

擴展性強，當計算能力不足時，能夠進行橫向擴展機器
保證數據不丟失，且數據能夠消費一次或屢次
容錯性好，消息處理過程出現異常，會進行重試
語言無關性：storm程序可使用各類語言進行編寫

部分2 Storm原理

2.1拓展：大數據框架都有哪些架構類型？

主從架構：簡單高效，單主節點存在單點問題
HDFS\YARN\Storm\Hbase\Spark\Flinknode

對稱架構：複雜，效率較低，無單點問題，更加可靠
Zookeeper\Kafka [會進行主節點的選舉]python

Storm的主從架構linux

Nimbus 主節點
Sipervisor 從節點

Nimbus—zookeeper--supervisor程序員

Storm組件：Nimbusapache

接收客戶端的topo代碼，拆分紅多個task,將task信息存入zk，並將task分配給Supervisor,將映射關係存入ZK，並進行故障檢測vim
類比：部門經理將需求拆分爲多個任務（每一個任務有多個模塊）將這些任務寫入項目文檔中去，，並將每一個任務與每一程序員進行對應服務器

Storm組件：Supervisor架構

從Nimbus目錄讀取代碼，從zk上讀取Nimbus分配的task
啓動工做進程Worker
監控每個工做進程Worker

Storm 組件：Worker

從zk上讀取分配的task,並計算出task須要給哪些task發信息
啓動一個或多個Execucor線程執行任務Task

Storm組件：Zookeeper

Nimbus與Supervisor進行通訊（分配任務與心跳）
Supervisor與Worker進行通訊（分配任務和心跳）
Nimbus高可用（HA機制）

動手實踐

Zookeeper簡介與集羣配置【Storm的各個組件間是經過這個組件進行通訊】
Zookeeper 的核心，單機和集羣的配置方法
Storm的單機和集羣環境的搭建

部分3.Zookeeper簡介與集羣配置【Storm的各個組件間是經過這個組件進行通訊】

簡介：
Zookeeper是一個開源的分佈式協調服務的框架，使各個機器進行之間進行通訊

3.1核心功能：

文件系統
通知機制

文件系統：
相似於linux的文件系統目錄結構，從根目錄（/）開始

1.每個目錄都是一個znode節點

2.每個znode節點可直接存儲數據

3.類型：持久化，持久化順序，臨時，臨時順序

通知機制：

客戶端監聽關心的znode節點
Znode節點有變化（數據改變、刪除、子目錄添加刪除），通知客戶端處理

3.2 zookeeper的安裝

下載：直接去官網：zookeeper.apache.org或CDH5進行下載
/opt/soft [下載位置]
/opt/module 【解壓位置】
下載 .tar.gz
解壓 tar –zxvf tar.gz –C /apps

解壓後的主要目錄結構：
bin：包含

zkCli.sh 【命令行客戶端，能夠去鏈接到這個文件系統，相似於hadoop fs】
zkCleanup.sh [zk是一個小型文件系統，用於清理數據信息，保證各個節點的數據一致]
zkEnv.sh [環境變量的一些東西]
zkServer.sh 【zk服務器的啓動中止等操做】

conf:包含

log4j.properties 日誌輸出級別
zoo_sample.cfg mv zoo_sample.cfg zoo.cfg
[tickTime:客戶端與zk服務器的心跳時間，各個znode節點也要保持心跳]
InitLimit 啓動集羣時候，選舉Nimbus節點的最大時間 tickTime* InitLimit
SyncLimit 集羣中各個znode節點進行數據同步時候，保持數據一致性，進行數據同步的最大時間，超過這個時間，數據會同步失敗
dataDir zookeeper是一個小型的文件系統，將數據存放在哪裏配置
clientPort 客戶端訪問zk服務器的端口號2181去鏈接到這個服務器

在解壓後的目錄新建一個data的目錄用於存放zk的數據
將$ZK_HOME/data 替換conf/zoo.cfg 中的dataDir

啓動bin/zkServer.sh start
Jps
Or
bin/zkServer.sh status

standalone狀態

3.3 zk的命令行客戶端

去鏈接zk服務器
bin/zkCli.sh
這樣會鏈接本地的zk服務器‘
裏面的操做相似於linux的操做
輸入ls
查看根目錄有什麼 ls /
查看目錄下面的數據 get /
建立目錄 create /test 111
查看數據 get /test 獲得111
修改數據 set /test 222
再次查看： get /test 獲得222
刪除數據rmr /test
再次查看 ls / 無test目錄

3.4 zookeeper的集羣搭建（推薦1,3,5這樣的節點數，在進行節點選舉的時候，保證能選舉一個主節點出來）

啓動三個機器
配置第一臺
步驟一：在單機的基礎（解壓後修改dataDir的目錄）上，添加配置項
server. 這個id是惟一的
2888端口服務器之間是須要進行數據的同步的
3888端口集羣在啓動的時候進行選舉Nimbus節點

server.1=192.168.1.1:2888:3888
server.2=192.168.1.2:2888:3888
server.3=192.168.1.3:2888:3888
步驟二：在什麼地方進行存儲，當前機器是哪個ID
在$ZK_HOME/data 目錄下新建文件myid 用於存儲這個id
Vim $ZK_HOME/data/myid 寫入1 ：wq便可
步驟三：拷貝第一臺服務器到其他兩臺服務器上面去

Scp –r zookeeper-3.4.5/ root@192.168.1.2:/opt/module
便可
在這以前能夠配置ssh的免密碼登陸

拓展：
1.HOSTNAME主機名：vim /etc/sysconfig/network

2.配置ip與主機名之間的映射關係
Vim /etc/hosts
192.168.1.1 hadoop001
192.168.1.2 hadoop002
192.168.1.3 hadoop003

啓動zk集羣
在每一臺上面都要進行啓動，bin/zkServer.sh start
Bin/zkServer.sh status 狀態爲：leader 主節點
Bin/zkServer.sh status 狀態爲：follower 從節點

ZKcli從1-2-3
192.168.1.1可使用bin/zkCli.sh -server 192.168.1.2:2181
進入以後，connect 192.168.1.3:2181

部分4 Storm的安裝配置

單機環境的安裝配置
下載啊storm.apache.org 或CDH5 1.1.0 ，1.2.1等版本
解壓 tar –zxvf storm.tar.gz –C /opt/module

Storm的啓動是須要依賴於zookeeper服務的
在這以前，先使用單個zk服務（單節點）

Storm解壓後的目錄
bin 包含

storm 核心腳本，能夠經過這個腳本進行啓動
Storm.py 是一個python腳本

Conf 包含

Storm.yaml最核心的配置文件
storm.zookeeper.servers
nimbus.seeds
drpc.servers
暫時不作任何修改

啓動主節點
bin/storm nimbus &
啓動從節點
bin/storm supervisor &
啓動UI
bin/storm ui &
啓動日誌
bin/storm logviewer &

ps：nohup java –jar hh.jar &
nohup + & 客戶端和虛擬機是不須要保持鏈接的，即當前輸入的命令界面是能夠進行關閉的

Storm性能調優
爲了解決數據不一致的問題，咱們先把zookeeper的data目錄下先刪除,保持一致
每一個機器上執行
rm –rf $ZK_HOME/data
mkdir $ZK_HOME/data
vim $ZK_HOME/data/myid 寫入相應的 1,2,3等：wq

每一個機器上啓動zookeeper
bin/zkServer.sh start

開始配置storm的單機環境爲集羣環境配置

Vim #STORM_HOME/conf/storm.yaml
storm.zookeeper.servers:

「192.168.1.1」
「192.168.1.2」
「192.168.1.3」
Nimbus.seeds: [「192.168.1.1」,」192.168.1.2」]

就簡單作這樣的操做就能夠了
接着拷貝storm文件到其他的機器上面去

就能夠啓動storm了

啓動主節點【第一臺機器上】
Nohup bin/storm nimbus &
啓動從節點【第二臺機器上】
Nohup bin/storm supervisor &
啓動UI
能夠在第一臺也能夠在第二臺上面
nohup bin/storm ui
WebUI查看：
192.168.1.2:8080/index.html

這裏能夠作節點故障轉義的實驗

更多文章 Storm構建實時流處理 https://blog.csdn.net/liuge36/article/category/8004011

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。