1、整體設計html
初來公司時,公司尚未大數據,我是做爲大數據架構師招入的,結合公司的線上和線下業務,制定了以下的大數據架構路線圖。前端
2、大數據任務開發和調度平臺架構設計nginx
在設計完整體架構後,而且搭建完hadoop/yarn的大數據底層計算平臺後, 按照整體架構設計思路, 首先須要構建的就是大數據開發平臺。這也是一個很是核心的平臺,也是最基礎最重要的一個環節。web
一開始設計的架構圖以下所示。算法
架構設計解釋說明以下:數據庫
MasterServer:json
MasterServer採用分佈式無中心設計理念,MasterServer主要負責 DAG 任務切分、任務提交監控,並同時監聽其它MasterServer和WorkerServer的健康狀態。 MasterServer服務啓動時向Zookeeper註冊臨時節點,經過監聽Zookeeper臨時節點變化來進行容錯處理。後端
該服務內主要包含:
Distributed 分佈式調度組件,主要負責定時任務的啓停操做,當Distributed調起任務後,Master內部會有線程池具體負責處理任務的後續操做api
MasterScheduler是一個掃描線程,定時掃描數據庫中的 command 表,根據不一樣的命令類型進行不一樣的業務操做網絡
MasterExecThread主要是負責DAG任務切分、任務提交監控、各類不一樣命令類型的邏輯處理
MasterTaskExecThread主要負責任務的持久化
WorkerServer:
WorkerServer一樣也採用分佈式無中心設計理念,WorkerServer主要負責任務的執行和提供日誌服務。WorkerServer服務啓動時向Zookeeper註冊臨時節點,並維持心跳。
該服務包含:
FetchTaskThread主要負責不斷從Task Queue中領取任務,並根據不一樣任務類型調用TaskScheduleThread對應執行器。
LoggerServer是一個GRPC服務,提供日誌分片查看、刷新和下載等功能
ZooKeeper:
ZooKeeper服務,系統中的MasterServer和WorkerServer節點都經過ZooKeeper來進行集羣管理和容錯。另外系統還基於ZooKeeper進行事件監聽和分佈式鎖。 也曾經想過基於Redis實現過隊列,不過仍是想依賴到的組件儘可能地少,減小研發的學習成本,因此最後仍是去掉了Redis實現。
Task Queue:
提供任務隊列的操做,隊列也是基於Zookeeper來實現。因爲隊列中存的信息較少,沒必要擔憂隊列裏數據過多的狀況,對系統穩定性和性能沒影響。
告警服務:
提供告警相關接口,接口主要包括告警兩種類型的告警數據的存儲、查詢和通知功能。其中通知功能又有郵件通知和SNMP(暫未實現)兩種。
API(web App 應用動態請求處理)
API接口層,主要負責處理前端UI層的請求。該服務統一提供RESTful api向外部提供請求服務。 接口包括工做流的建立、定義、查詢、修改、發佈、下線、手工啓動、中止、暫停、恢復、從該節點開始執行等等。
UI(web app前端)
系統的前端頁面,提供系統的各類可視化操做界面,詳見系統使用手冊部分。
web application採用先後端分離的方式, UI(web app前端) 中的靜態資源採用nginx進行管理。
nginx.conf中的配置(先後端分離配置):
server {
listen 8888;# 監聽端口
server_name bigdata-manager;
#charset koi8-r;
access_log /var/log/nginx/access.log main;
location / {
root /opt/app/dist; 靜態資源文件的路徑
index index.html index.html;
}
location /webPortal{
proxy_pass http://127.0.0.1:12345;# 動態請求處理,請求後端的API
}
}
DAG: 全稱Directed Acyclic Graph,簡稱DAG。工做流中的Task任務以有向無環圖的形式組裝起來,從入度爲零的節點進行拓撲遍歷,直到無後繼節點爲止。
本文做者:張永清 轉載請註明來源博客園:http://www.javashuo.com/article/p-dckjcjdl-ee.html
3、架構設計思想
一、中心化仍是去中心化設計的選擇
中心化思想:中心化的設計理念比較簡單,分佈式集羣中的節點按照角色分工,大致上分爲兩種角色:
中心化思想設計存在的不足:
去中心化思想:
二、分佈式鎖的設計
使用ZooKeeper實現分佈式鎖來實現同一時刻集羣中只有一臺Master執行Scheduler,或者只有一臺Worker執行任務的提交處理。
獲取分佈式鎖的核心流程算法以下:
本文做者:張永清 轉載請註明來源博客園:http://www.javashuo.com/article/p-dckjcjdl-ee.html
線程分佈式鎖實現流程圖:
線程不足,循環等待問題:
若是一個DAG中沒有子流程,則若是Command中的數據條數大於線程池設置的閾值,則直接流程等待或失敗。
若是一個大的DAG中嵌套了不少子流程,以下圖:
則會產生「死等」狀態。MainFlowThread等待SubFlowThread1結束,
SubFlowThread1等待SubFlowThread2結束,SubFlowThread2等待SubFlowThread3結束,而SubFlowThread3等待線程池有新線程,則整個DAG流程不能結束,從而其中的線程也不能釋放。這樣就造成的子父流程循環等待的狀態。此時除非啓動新的Master來增長線程來打破這樣的」僵局」,不然調度集羣將不能再使用。
對於啓動新Master來打破僵局,彷佛有點差強人意,因而咱們提出瞭如下三種方案來下降這種風險:
計算全部Master的線程總和,而後對每個DAG須要計算其須要的線程數,也就是在DAG流程執行以前作預計算。由於是多Master線程池,因此總線程數不太可能實時獲取。
對單Master線程池進行判斷,若是線程池已經滿了,則讓線程直接失敗。
增長一種資源不足的Command類型,若是線程池不足,則將主流程掛起。這樣線程池就有了新的線程,可讓資源不足掛起的流程從新喚醒執行。
注意:Master Scheduler線程在獲取Command的時候是FIFO的方式執行的。
3、集羣節點掛掉等異常容錯處理
容錯設計依賴於Zookeeper的Watcher機制,實現原理以下
Master監控其餘Master和Worker的目錄,若是監聽到remove事件,則會根據具體的業務邏輯進行流程實例容錯或者任務實例容錯。
Master容錯流程圖:
ZooKeeper Master容錯完成以後則從新由EasyScheduler中Scheduler線程調度,遍歷 DAG 找到」正在運行」和「提交成功」的任務,對」正在運行」的任務監控其任務實例的狀態,對」提交成功」的任務須要判斷Task Queue中是否已經存在,若是存在則一樣監控任務實例的狀態,若是不存在則從新提交任務實例。
Worker容錯流程圖:
Master Scheduler線程一旦發現任務實例爲」 須要容錯」狀態,則接管任務並進行從新提交。
因爲「網絡抖動」可能會使得節點短期內失去和zk的心跳,從而發生節點的remove事件。對於這種狀況,咱們使用最簡單的方式,那就是節點一旦和zk發生超時鏈接,則直接將Master或Worker服務停掉。
任務失敗重試處理:
失敗分爲:任務失敗重試、流程失敗恢復、流程失敗重跑。
咱們將工做流中的任務節點分了兩種類型。
一種是業務節點,這種節點都對應一個實際的腳本或者處理語句,好比Shell節點,MR節點、Spark節點、依賴節點等。
還有一種是邏輯節點,這種節點不作實際的腳本或語句處理,只是整個流程流轉的邏輯處理,好比子流程節等。
每個業務節點均可以配置失敗重試的次數,當該任務節點失敗,會自動重試,直到成功或者超過配置的重試次數。邏輯節點不支持失敗重試。可是邏輯節點裏的任務支持重試。
若是工做流中有任務失敗達到最大重試次數,工做流就會失敗中止,失敗的工做流能夠手動進行重跑操做或者流程恢復操做
4、日誌查看實現
因爲Web Application和Worker不必定在同一臺機器上,因此查看日誌不能像查詢本地文件那樣。有兩種方案:
將日誌放到ES搜索引擎上存儲,經過對es進行查詢。
經過gRPC通訊獲取遠程日誌信息
介於考慮到儘量的系統設計的輕量級性,因此選擇了gRPC實現遠程訪問日誌信息。
GRPC的傳輸的性能以及I/O都比較高,日誌查詢起來也很快。
5、任務優先級設計
若是沒有優先級設計,採用公平調度設計的話,會遇到先行提交的任務可能會和後繼提交的任務同時完成的狀況,而不能作到設置流程或者任務的優先級,所以咱們對此進行了從新設計,目前咱們設計以下:
按照不一樣流程實例優先級優先於同一個流程實例優先級優先於同一流程內任務優先級優先於同一流程內任務提交順序依次從高到低進行任務處理。
具體實現是根據任務實例的json解析優先級,而後把流程實例優先級流程實例id任務優先級_任務id信息保存在ZooKeeper任務隊列中,當從任務隊列獲取的時候,經過字符串比較便可得出最須要優先執行的任務。