分佈式系統和大數據處理平臺是目前業界關注的熱門技術。node
1.RabbitMQgit
RabbitMQ是一個支持AMQP的開源消息隊列實現,由Erlang編寫,因以高性能、高可用以及可伸縮性出名。它支持多種客戶端,如:Java、Python、PHP、Ruby、.NET、JavaScript等。github
它主要用於分佈式系統中存儲和轉發消息,方便組之間的解耦,消息的發送無需知道消息使用者的存在,反之亦然。web
AMQP架構中有兩個主要組件:Exchange和Queue,二者都在服務端,又稱Broker,由RabbitMQ實現。客戶端一般有Producer和Consumer兩種類型。redis
在使用RabbitMQ過程當中須要注意的是,它將數據存儲在Node中,默認狀況爲hostname。所以在使用docker run指令運行容器的時候, 應該經過-h/--hostname參數指定每個rabbitmq daemon運行的主機名。這樣能夠輕鬆得地管理和維護數據了:docker
用戶使用rabbitmqctl工具進行遠程管理,或跨容器管理的時候,會須要設置持久化的Cookie。若是須要了解關於Erlang Cookie的信息,能夠參見RabbitMQ官網的集羣指南。shell
這裏可使用RABBITMQ_ERLANG_COOKIE參數進行設置:apache
docker run -d --hostname my-rabbit --name some-rabbit -e RABBITMQ_ERLANG_COOKIE='secret cookie here' rabbitmq:3 bashbootstrap
2.Celerybash
除了通用的消息隊列外,任務隊列在分佈式處理中也十分重要。任務隊列的輸入是工做的一個單元,稱爲任務,有多個工做者監聽隊列來獲取任務並執行。
Celery是一個簡單、靈活、高可用、高性能的開源分佈式任務處理系統,專一於實時處理的任務隊列管理,同時也支持任務調度。Celery基於Python實現,跟包括的Django、Flask、Tornado等Web框架都無縫集成,有龐大的用戶與貢獻者社區。Celery可用單機運行,也能夠在多臺機器上運行,甚至能夠跨越數據中心運行。
(1)使用官方鏡像
docker run --link some-rabbit:rabbit --name some-celery -d celery:latest
檢查集羣狀態:
docker run --link some-rabbit:rabbit --rm celery celery status
啓動一個celery worker,即Redis Broker
docker run --link some-redis:redis -e CELERY_BROKER_URL=redis://redis --name some-celery -d celery
檢查集羣狀態:
docker run --link some-redis:redis -e CELERY_BROKER_URL=redis://redis --rm celery celery status
(2)使用Celery庫
若是用戶使用的框架已有Celery庫,那麼使用起來更加方便。
Python調用CeLery:
from celery import Celery
app = Celery('hello',broker='amqp://guest@localhost//')
@app.tast
def hello():
return "hello world"
3.Hadoop
做爲當今大數據處理領域的經典分佈式平臺,Apache Hadoop主要基於Java語言實現,由三個核心子系統組成:HDFS、YARN、MapReduce,其中HDFS是一套分佈式文件系統;YARN是資源管理系統,MapReduce是運行在YARN上的應用,負責分佈式處理管理。若是從操做系統的角度看,HDFS至關於Linux的ext3/ext4文件系統,而Yarn至關於Linux的進程調度和內存分配模塊。
使用官方鏡像
能夠經過docker run指令運行鏡像,同時打開bash命令行,以下所示:
docker run -it sequenceiq/hadoop-docer:2.7.0 /etc/bootstrap.sh -bash
此時能夠查看各類配置信息和執行操做,例如查看namenode日誌等信息:
cat /usr/local/hadoop/logs/yarn-root-nodemanager-8c266b1ce6d8.out
4.Spark
Apache Spark是一個圍繞速度、易用性和複雜分析構建的大數據處理框架,基於Scala開發。最初在2009年由加州大學伯克利分校的AMPLap開發,並於2010年成爲Apache的開源項目之一。
與Hadoop和Storm等其餘大數據和MapReduce技術相比,Spark支持靈活的函數定義,能夠將營業處理速度提高到一兩個數量級,而且提供了衆多方便的實用工具,包括SQL查詢、流處理、機器學習和圖處理等:
Spark體系包括以下三個主要組成:數據組成、API、管理框架。
(1)使用官方鏡像
docker pull sequenceiq/spark:1.6.0
也可使用docker build指令構建spark鏡像:
docker build --rm -t sequenceiq/spark:1.6.0 .
另外,用戶在運行容器時,須要映射YARN UI須要的端口:
docker run -it -p 8088:8088 -p 8042:8042 -h sandbox sequenceiq/spark:1.6.0 bash
啓動後,可使用bash命令來查看namenode日誌等信息:
cat /usr/local/hadoop/logs/hadoop-root-namenode-sandbox.out
(2)驗證
基於YARN部署Spark系統時,用戶有兩種部署方式可選:YARN客戶端模式和YARN集羣模式。
a.YARN客戶端模式
在YARN客戶端模式中,SparkContext(或稱爲驅動程序,driver program)運行在客戶進程中,應用的master僅處理來自YARN的資源管理請求:
#運行spark shell
spark-shell \
--master yarn-client \
--driver-memory 1g \
--executor-memory 1g \
--executor-cores 1
#執行如下指令返回1000則符合預期
sc.parallelize(1 to 1000).count()
b.YARN集羣模式
在YARN集羣模式中,Spark driver驅動程序運行於應用master的進程中,即由YARN從集羣層面進行管理。下面,用戶以Pi值計算爲例子,展示兩種模式的區別:
Pi計算(YARN集羣模式):
#執行如下指令,成功後,日誌中會新增記錄 "Pi is roughly 3.1418"
#集羣模式下用戶必須制定--files參數,以開啓metrics
spark-submit \
--class org.apache.spark.examples.SparkPi \
--files $SPARK_HOME/conf/metrics.properties \
--master yarn-cluster \
--driver-memory 1g \
--executor-memory 1g \
--executor-cores 1 \
$SPARK_HOME/lib/spark-examples-1.6.0-hadoop2.6.0.jar
Pi計算(YARN客戶端模式):
#執行如下指令,成功後,命令行將顯示"Pi is roughly 3.1418"
spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn-client
--driver-memory 1g \
--executor-memory 1g \
--executory-cores 1 \
$SPARK_HOME/lib/spark-examples-1.6.0-hadoop2.6.0.jar
(3)容器外訪問Spark
若是須要從容器外訪問Spark環境,則須要設置YARN_CONF_DIR環境變量。yarn-remote-client文件夾內置遠程訪問的配置信息:
export YARN_CONF_DIR="`pwd`/yarn-remote-client"
只能使用根用戶訪問Docker的HDFS環境。當用戶從容器集羣外部,使用非根用戶訪問Spark環境時,則須要配置HADOOP_USER_NAME環境變量:
export HADOOP_USER_NAME=root
5.Storm
Apache Storm 是一個實時流計算框架,由Twitter在2014年正式開源,遵循Eclipse Public License1.0.Storm基於Clojre等語言實現。
Storm集羣與Hadoop集羣在工做方式上十分類似,惟一區別在於Hadoop運行的是MapReduce任務,在Storm上運行的則是topology。MapReduce任務完成處理即會結束,而topology則永遠在等待消息並處理。
(1)示意架構圖
其中包含以下容器:
Zookeeper:Apache Zookeeper三節點部署
Nimbus:Storm Numbus.
UI:Storm UI
Supervisor:Storm Supervisor(一個或多個)
(2)本地開發測試
git clone https://github.com/denverdino/docker-storm.git
cd docker-swarm/local
代碼庫中的docker-compose.yml文件描述了典型的Storm應用架構。
用戶能夠直接運行下列命令構建測試鏡像:
docker-compose build
一鍵部署一個storm應用:
docker-compose up -d
利用以下命令,能夠伸縮supervisor的數量,好比伸縮到4個實例
docker-compose scale supervisor=4
朋友們也許會發現Web界面中並無運行中的topology。這是由於Docker Compose目前只能保證容器的啓動順序,可是沒法確保所依賴容器中的應用已經徹底啓動並能夠正常訪問。
爲了解決這個問題,須要運行以下命令來再次啓動topolgoy服務應用來提交更新的拓撲:
docker-compose start topology
隨後刷新下UI界面,能夠發現Storm應用已經部署成功。
6.Elasticsearch
Elasticsearch是一個基於Lucene的開源搜索服務器,主要基於Java實現。它提供一個分佈式的,多租戶的全文搜索引擎,內含RESTful web接口。
Elasticsearch提供了實時的分佈式數據存儲和分析查詢功能,很容易擴展到上百臺服務器,支持處理PB級結構化或非結構化數據。配合Logstash、Kibana等組件,能夠快速構建一套對日誌信息的分析平臺。
拉取官方鏡像:
docker run -d elasticsearch
也能夠在啓動時傳入一些額外的配置參數:
docker run -d elasticsearch elasticsearch -Des.node.name="TestNode"
目前使用的鏡像內含默認配置文件,包含了預先定義好的默認配置。若是用戶要使用自定義配置,可使用數據卷,掛載自定義配置文件到/usr/share/elasticsearc/config:
docker run -d -v "$PWD/config":/usr/share/elasticsearch/config elasticsearch
若是須要數據持久化,可使用數據卷指令,掛載至/usr/share/elasticsearch/data:
docker run -d -v "$PWD/esdata":/usr/share/elasticsearch/data elasticsearch
此鏡像會暴露9200 9300兩個默認的HTTP端口,能夠經過此端口進行服務訪問。9200端口是對外提供服務的API使用的端口。9300端口是內部通訊端口,這些通訊包括心跳,集羣內部信息同步。