【趙強老師】大數據工做流引擎Oozie

【趙強老師】大數據工做流引擎Oozie

1、什麼是工做流?

工做流(WorkFlow)就是工做流程的計算模型,即將工做流程中的工做如何先後組織在一塊兒的邏輯和規則在計算機中以恰當的模型進行表示並對其實施計算。工做流要解決的主要問題是:爲實現某個業務目標,在多個參與者之間,利用計算機,按某種預約規則自動傳遞。下面咱們以「員工請假的流程」爲例,來爲你們介紹什麼是工做流。mysql

【趙強老師】大數據工做流引擎Oozie

這個例子包含了一個完整的員工請假流程。從「請假流程開始」,到「員工填寫請假條」,再到「部門經理審批」,若是審批不經過,流程回到「員工填寫請假條」;若是部門經理審批經過,則流程進入下一個節點;直到最後的流程結束。在Java中,咱們能夠使用一些框架幫助咱們來實現這樣的過程。Java的三大主流工做流引擎分別是:Shark,osworkflow,JBPMweb

2、什麼是Oozie?

關於什麼是Oozie,其實Oozie是服務於Hadoop生態系統的工做流調度工具,Job運行平臺是區別於其餘調度工具的最大的不一樣。但其實現的思路跟通常調度工具幾乎徹底相同。Oozie工做流經過HPDL(一種經過XML自定義處理的語言,相似JBOSS JBPM的JPDL)來構造。Oozie工做流中的Action在運程系統運行如(Hadoop,Pig服務器上)。一旦Action完成,遠程服務器將回調Oozie的接口 並通知Action已經完成,這時Oozie又會以一樣的方式執行工做流中的下一個Action,直到工做流中全部Action都完成(完成包括失敗)。Oozie工做流提供各類類型的Action用於支持不一樣的須要,如Hadoop Map/Reduce,Hadoop File System,Pig,SSH,HTTP,Email,Java以及Oozie子流程。Oozie也支持自定義擴展以上各類類型的Action。sql

一個正常工做的Oozie系統須包含以下四個模塊:Oozie Client、Oozie Server、DataBase和Hadoop集羣。數據庫

  • Oozie Client能夠經過Web Service API、Java API、Command line 方式向Oozie Server提交工做流任務請求。Oozie客戶端能夠經過REST API或者Web GUI來從Oozie服務端獲取Job的日誌流。一般在Client端包括工做流配置文件、工做流屬性文件和工做流庫。
  • Oozie Server負責接收客戶端請求、調度工做任務、監控工做流的執行狀態。Oozie自己不會執行具體的Job,而是將Job的配置信息發送到執行環境。
  • DataBase用於存儲Bundle、Coordinator、Workflow工做流的Action信息、Job信息,記錄Oozie系統信息。簡單說,除了Oozie 運行日誌存在本地硬盤不存在DB中,其餘信息都存儲到DB。
  • Hadoop集羣運行Oozie工做流的實體,負責處理Oozie Server提交來的各類Job。包括HDFS、MapReduce、Hive、Sqoop等Hadoop組件提交的Job。

3、編譯Oozie

  • 使用的版本信息以下
Hadoop 2.4.1
JDK 1.7
Maven 3.5.0
Oozie 4.3
  • 在oozie解壓後的目錄下,編譯oozie,執行命令:
bin/mkdistro.sh -DskipTests -Dhadoop.version=2.4.1

注意:若是第一次安裝,Maven會自動下載依賴的jar包,時間可能 會比較長。api

  • 若是出現下面的錯誤,表示Maven的內存溢出。

【趙強老師】大數據工做流引擎Oozie

設置環境變量:export MAVEN_OPTS="-Xmx512m -XX:MaxPermSize=128m",而且從新編譯。
  • 編譯完成,成功出現如下提示。

【趙強老師】大數據工做流引擎Oozie

4、安裝部署Oozie

  • 解壓安裝包
tar -zxvf oozie-4.3.0-distro.tar.gz -C ~/training/
  • 設置環境變量

【趙強老師】大數據工做流引擎Oozie

  • 創建MySQL數據庫
create database oozie;
create user 'oozieowner'@'%' identified by 'password';              
grant all on oozie.* TO 'oozieowner'@'%'; 
grant all on oozie.* TO 'oozieowner'@'localhost' identified by 'password';
  • 修改文件:conf/oozie-site.xml

【趙強老師】大數據工做流引擎Oozie

  • 配置oozie的web console
(*)建立目錄:mkdir /root/training/oozie-4.3.0/libext
(*)將文件ext-2.2.zip和mysql的驅動上傳到這個目錄
(*)拷貝$HADOOP_HOME/share/hadoop/*/*.jar和$HADOOP_HOME/share/hadoop/*/lib/*.jar到Oozie的libext目錄下
(*)因爲hadoop和oozie自帶的tomcat jar包有衝突,因此須要把衝突的jar包驅動。執行下面的命令:

      cd /root/training/oozie-4.3.0/libext
      mv servlet-api-2.5.jar servlet-api-2.5.jar.bak
      mv jsp-api-2.1.jar jsp-api-2.1.jar.bak
      mv jasper-compiler-5.5.23.jar jasper-compiler-5.5.23.jar.bak
      mv jasper-runtime-5.5.23.jar jasper-runtime-5.5.23.jar.bak
  • 初始化oozie
(*)生成oozie web console的war包:oozie-setup.sh prepare-war
(*)初始化數據庫:ooziedb.sh create -sqlfile oozie.sql -run
(*)將不一樣任務依賴的共享jar包上傳到HDFS:
      oozie-setup.sh sharelib create -fs hdfs://hadoop111:9000

(*)修改oozie-4.3.0/oozie-server/conf/server.xml,註釋掉下面的記錄:

【趙強老師】大數據工做流引擎Oozie

  • 啓動oozie和Hadoop的historyserver
oozied.sh start
mr-jobhistory-daemon.sh start historyserver

【趙強老師】大數據工做流引擎Oozie

【趙強老師】大數據工做流引擎Oozie

相關文章
相關標籤/搜索