Docker實戰(十)之分佈式處理與大數據平臺

時間 2019-11-19

原文原文鏈接

分佈式系統和大數據處理平臺是目前業界關注的熱門技術。node

1.RabbitMQgit

RabbitMQ是一個支持AMQP的開源消息隊列實現，由Erlang編寫，因以高性能、高可用以及可伸縮性出名。它支持多種客戶端，如:Java、Python、PHP、Ruby、.NET、JavaScript等。github

它主要用於分佈式系統中存儲和轉發消息，方便組之間的解耦，消息的發送無需知道消息使用者的存在，反之亦然。web

AMQP架構中有兩個主要組件:Exchange和Queue，二者都在服務端，又稱Broker，由RabbitMQ實現。客戶端一般有Producer和Consumer兩種類型。redis

在使用RabbitMQ過程當中須要注意的是，它將數據存儲在Node中，默認狀況爲hostname。所以在使用docker run指令運行容器的時候，應該經過-h/--hostname參數指定每個rabbitmq daemon運行的主機名。這樣能夠輕鬆得地管理和維護數據了:docker

用戶使用rabbitmqctl工具進行遠程管理，或跨容器管理的時候，會須要設置持久化的Cookie。若是須要了解關於Erlang Cookie的信息，能夠參見RabbitMQ官網的集羣指南。shell

這裏可使用RABBITMQ_ERLANG_COOKIE參數進行設置:apache

docker run -d --hostname my-rabbit --name some-rabbit -e RABBITMQ_ERLANG_COOKIE='secret cookie here' rabbitmq:3 bashbootstrap

2.Celerybash

除了通用的消息隊列外，任務隊列在分佈式處理中也十分重要。任務隊列的輸入是工做的一個單元，稱爲任務，有多個工做者監聽隊列來獲取任務並執行。

Celery是一個簡單、靈活、高可用、高性能的開源分佈式任務處理系統，專一於實時處理的任務隊列管理，同時也支持任務調度。Celery基於Python實現，跟包括的Django、Flask、Tornado等Web框架都無縫集成，有龐大的用戶與貢獻者社區。Celery可用單機運行，也能夠在多臺機器上運行，甚至能夠跨越數據中心運行。

(1)使用官方鏡像

docker run --link some-rabbit:rabbit --name some-celery -d celery:latest
檢查集羣狀態:

docker run --link some-rabbit:rabbit --rm celery celery status

啓動一個celery worker，即Redis Broker

docker run --link some-redis:redis -e CELERY_BROKER_URL=redis://redis --name some-celery -d celery

檢查集羣狀態:

docker run --link some-redis:redis -e CELERY_BROKER_URL=redis://redis --rm celery celery status

(2)使用Celery庫

若是用戶使用的框架已有Celery庫，那麼使用起來更加方便。

Python調用CeLery:

from celery import Celery

app = Celery('hello',broker='amqp://guest@localhost//')

@app.tast

def hello():
    return "hello world"

3.Hadoop

做爲當今大數據處理領域的經典分佈式平臺，Apache Hadoop主要基於Java語言實現，由三個核心子系統組成:HDFS、YARN、MapReduce,其中HDFS是一套分佈式文件系統；YARN是資源管理系統，MapReduce是運行在YARN上的應用，負責分佈式處理管理。若是從操做系統的角度看，HDFS至關於Linux的ext3/ext4文件系統，而Yarn至關於Linux的進程調度和內存分配模塊。

使用官方鏡像

能夠經過docker run指令運行鏡像，同時打開bash命令行，以下所示:

docker run -it sequenceiq/hadoop-docer:2.7.0 /etc/bootstrap.sh -bash

此時能夠查看各類配置信息和執行操做,例如查看namenode日誌等信息:

cat /usr/local/hadoop/logs/yarn-root-nodemanager-8c266b1ce6d8.out

4.Spark

Apache Spark是一個圍繞速度、易用性和複雜分析構建的大數據處理框架，基於Scala開發。最初在2009年由加州大學伯克利分校的AMPLap開發，並於2010年成爲Apache的開源項目之一。

與Hadoop和Storm等其餘大數據和MapReduce技術相比，Spark支持靈活的函數定義，能夠將營業處理速度提高到一兩個數量級，而且提供了衆多方便的實用工具，包括SQL查詢、流處理、機器學習和圖處理等:

Spark體系包括以下三個主要組成:數據組成、API、管理框架。

(1)使用官方鏡像

docker pull sequenceiq/spark:1.6.0

也可使用docker build指令構建spark鏡像:

docker build --rm -t sequenceiq/spark:1.6.0 .

另外，用戶在運行容器時，須要映射YARN UI須要的端口:

docker run -it -p 8088:8088 -p 8042:8042 -h sandbox sequenceiq/spark:1.6.0 bash

啓動後，可使用bash命令來查看namenode日誌等信息:

cat /usr/local/hadoop/logs/hadoop-root-namenode-sandbox.out

(2)驗證

基於YARN部署Spark系統時，用戶有兩種部署方式可選:YARN客戶端模式和YARN集羣模式。

a.YARN客戶端模式

在YARN客戶端模式中，SparkContext(或稱爲驅動程序，driver program)運行在客戶進程中，應用的master僅處理來自YARN的資源管理請求:

#運行spark shell

spark-shell \

--master yarn-client \

--driver-memory 1g \

--executor-memory 1g \

--executor-cores 1

#執行如下指令返回1000則符合預期

sc.parallelize(1 to 1000).count()

b.YARN集羣模式

在YARN集羣模式中，Spark driver驅動程序運行於應用master的進程中，即由YARN從集羣層面進行管理。下面，用戶以Pi值計算爲例子，展示兩種模式的區別:

Pi計算(YARN集羣模式):

#執行如下指令，成功後，日誌中會新增記錄 "Pi is roughly 3.1418"

#集羣模式下用戶必須制定--files參數,以開啓metrics

spark-submit \

--class org.apache.spark.examples.SparkPi \

--files $SPARK_HOME/conf/metrics.properties \

--master yarn-cluster \

--driver-memory 1g \

--executor-memory 1g \

--executor-cores 1 \

$SPARK_HOME/lib/spark-examples-1.6.0-hadoop2.6.0.jar

Pi計算(YARN客戶端模式):

#執行如下指令，成功後，命令行將顯示"Pi is roughly 3.1418"

spark-submit \

--class org.apache.spark.examples.SparkPi \

--master yarn-client

--driver-memory 1g \

--executor-memory 1g \

--executory-cores 1 \

$SPARK_HOME/lib/spark-examples-1.6.0-hadoop2.6.0.jar

(3)容器外訪問Spark

若是須要從容器外訪問Spark環境，則須要設置YARN_CONF_DIR環境變量。yarn-remote-client文件夾內置遠程訪問的配置信息:

export YARN_CONF_DIR="`pwd`/yarn-remote-client"

只能使用根用戶訪問Docker的HDFS環境。當用戶從容器集羣外部，使用非根用戶訪問Spark環境時，則須要配置HADOOP_USER_NAME環境變量:

export HADOOP_USER_NAME=root

5.Storm

Apache Storm 是一個實時流計算框架，由Twitter在2014年正式開源，遵循Eclipse Public License1.0.Storm基於Clojre等語言實現。

Storm集羣與Hadoop集羣在工做方式上十分類似，惟一區別在於Hadoop運行的是MapReduce任務，在Storm上運行的則是topology。MapReduce任務完成處理即會結束，而topology則永遠在等待消息並處理。

(1)示意架構圖

其中包含以下容器:

Zookeeper:Apache Zookeeper三節點部署

Nimbus:Storm Numbus.

UI:Storm UI

Supervisor:Storm Supervisor(一個或多個)

(2)本地開發測試

git clone https://github.com/denverdino/docker-storm.git

cd docker-swarm/local

代碼庫中的docker-compose.yml文件描述了典型的Storm應用架構。

用戶能夠直接運行下列命令構建測試鏡像:

docker-compose build

一鍵部署一個storm應用:

docker-compose up -d

利用以下命令，能夠伸縮supervisor的數量，好比伸縮到4個實例

docker-compose scale supervisor=4

朋友們也許會發現Web界面中並無運行中的topology。這是由於Docker Compose目前只能保證容器的啓動順序，可是沒法確保所依賴容器中的應用已經徹底啓動並能夠正常訪問。

爲了解決這個問題，須要運行以下命令來再次啓動topolgoy服務應用來提交更新的拓撲:

docker-compose start topology

隨後刷新下UI界面，能夠發現Storm應用已經部署成功。

6.Elasticsearch

Elasticsearch是一個基於Lucene的開源搜索服務器，主要基於Java實現。它提供一個分佈式的，多租戶的全文搜索引擎，內含RESTful web接口。

Elasticsearch提供了實時的分佈式數據存儲和分析查詢功能，很容易擴展到上百臺服務器，支持處理PB級結構化或非結構化數據。配合Logstash、Kibana等組件，能夠快速構建一套對日誌信息的分析平臺。

拉取官方鏡像:

docker run -d elasticsearch

也能夠在啓動時傳入一些額外的配置參數:

docker run -d elasticsearch elasticsearch -Des.node.name="TestNode"

目前使用的鏡像內含默認配置文件，包含了預先定義好的默認配置。若是用戶要使用自定義配置，可使用數據卷，掛載自定義配置文件到/usr/share/elasticsearc/config:

docker run -d -v "$PWD/config":/usr/share/elasticsearch/config elasticsearch

若是須要數據持久化，可使用數據卷指令，掛載至/usr/share/elasticsearch/data:

docker run -d -v "$PWD/esdata":/usr/share/elasticsearch/data elasticsearch

此鏡像會暴露9200 9300兩個默認的HTTP端口，能夠經過此端口進行服務訪問。9200端口是對外提供服務的API使用的端口。9300端口是內部通訊端口，這些通訊包括心跳，集羣內部信息同步。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。