工做流(WorkFlow)就是工做流程的計算模型,即將工做流程中的工做如何先後組織在一塊兒的邏輯和規則在計算機中以恰當的模型進行表示並對其實施計算。工做流要解決的主要問題是:爲實現某個業務目標,在多個參與者之間,利用計算機,按某種預約規則自動傳遞。下面咱們以「員工請假的流程」爲例,來爲你們介紹什麼是工做流。mysql
這個例子包含了一個完整的員工請假流程。從「請假流程開始」,到「員工填寫請假條」,再到「部門經理審批」,若是審批不經過,流程回到「員工填寫請假條」;若是部門經理審批經過,則流程進入下一個節點;直到最後的流程結束。在Java中,咱們能夠使用一些框架幫助咱們來實現這樣的過程。Java的三大主流工做流引擎分別是:Shark,osworkflow,JBPMweb
關於什麼是Oozie,其實Oozie是服務於Hadoop生態系統的工做流調度工具,Job運行平臺是區別於其餘調度工具的最大的不一樣。但其實現的思路跟通常調度工具幾乎徹底相同。Oozie工做流經過HPDL(一種經過XML自定義處理的語言,相似JBOSS JBPM的JPDL)來構造。Oozie工做流中的Action在運程系統運行如(Hadoop,Pig服務器上)。一旦Action完成,遠程服務器將回調Oozie的接口 並通知Action已經完成,這時Oozie又會以一樣的方式執行工做流中的下一個Action,直到工做流中全部Action都完成(完成包括失敗)。Oozie工做流提供各類類型的Action用於支持不一樣的須要,如Hadoop Map/Reduce,Hadoop File System,Pig,SSH,HTTP,Email,Java以及Oozie子流程。Oozie也支持自定義擴展以上各類類型的Action。sql
一個正常工做的Oozie系統須包含以下四個模塊:Oozie Client、Oozie Server、DataBase和Hadoop集羣。數據庫
Hadoop 2.4.1 JDK 1.7 Maven 3.5.0 Oozie 4.3
bin/mkdistro.sh -DskipTests -Dhadoop.version=2.4.1
注意:若是第一次安裝,Maven會自動下載依賴的jar包,時間可能 會比較長。api
設置環境變量:export MAVEN_OPTS="-Xmx512m -XX:MaxPermSize=128m",而且從新編譯。
tar -zxvf oozie-4.3.0-distro.tar.gz -C ~/training/
create database oozie; create user 'oozieowner'@'%' identified by 'password'; grant all on oozie.* TO 'oozieowner'@'%'; grant all on oozie.* TO 'oozieowner'@'localhost' identified by 'password';
(*)建立目錄:mkdir /root/training/oozie-4.3.0/libext (*)將文件ext-2.2.zip和mysql的驅動上傳到這個目錄 (*)拷貝$HADOOP_HOME/share/hadoop/*/*.jar和$HADOOP_HOME/share/hadoop/*/lib/*.jar到Oozie的libext目錄下 (*)因爲hadoop和oozie自帶的tomcat jar包有衝突,因此須要把衝突的jar包驅動。執行下面的命令: cd /root/training/oozie-4.3.0/libext mv servlet-api-2.5.jar servlet-api-2.5.jar.bak mv jsp-api-2.1.jar jsp-api-2.1.jar.bak mv jasper-compiler-5.5.23.jar jasper-compiler-5.5.23.jar.bak mv jasper-runtime-5.5.23.jar jasper-runtime-5.5.23.jar.bak
(*)生成oozie web console的war包:oozie-setup.sh prepare-war (*)初始化數據庫:ooziedb.sh create -sqlfile oozie.sql -run (*)將不一樣任務依賴的共享jar包上傳到HDFS: oozie-setup.sh sharelib create -fs hdfs://hadoop111:9000 (*)修改oozie-4.3.0/oozie-server/conf/server.xml,註釋掉下面的記錄:
oozied.sh start mr-jobhistory-daemon.sh start historyserver