Spoon:集成開發環境linux
Kitchen:做業的命令行運行程序,能夠經過Schell腳原本調用windows
Pan:轉換的命令行程序服務器
Carte:輕量級的HTTP服務,後臺運行,監聽HTTP請求來運行一個做業工具
主要用於ETL設計階段。oop
做業和轉換能夠在圖形界面裏執行,但這只是在開發、測試和調試階段。在開發完成後須要部署到實際運行環境中,在部署階段Spoon就不多用到了。
在部署階段,通常須要經過命令行執行,須要把命令行放入到Shell腳本中,並定時調度這個腳本。Kitchen和Pan命令行工具主要就用於這個階段,用於實際的生產環境中。測試
Carte服務用於執行一個做業,就像Kitchen同樣。但和Kitchen不一樣的是,Carte是一個服務,一直在後臺運行,而Kitchen只是運行一個做業就退出。
Carte是Kettle集羣中的一個重要構件塊。集羣能夠將單個工做或轉換分紅幾個部分,在Carte服務器的多個計算機上並行執行,所以能夠分散工做負載。命令行
特別注意:不一樣版本的kettle
和hadoop
存在兼容性問題。因此必定要注意版本之間的兼容性,下文會介紹具體的查詢方法。設計
OS: Windows 10
jdk: jdk-1.8.0_121
kettle: pdi-ce-6.1.0.1-196調試
OS: CentOS_6.5_x64
jdk: jdk1.8.111
hadoop: hadoop-2.6.5日誌
社區版:http://community.pentaho.com/
收費版:http://www.pentaho.com/product/data-integration
本教程使用的爲社區版
將下載的文件pdi-ce-6.1.0.1-196.zip
解壓(由於kettle是免安裝的因此至此安裝就完成了:))
<property> <name>dfs.permissions</name> <value>false</value> </property>
進入目錄\plugins\pentaho-big-data-plugin
編輯文件plugin.properties
active.hadoop.configuration=cdh55
根據具體狀況設定。
進入目錄plugins\pentaho-big-data-plugin\hadoop-configurations\cdh55
將服務器上hadoop/etc/hadoop/
下的core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
複製到該目錄下。
填寫完成後以下圖
注意:我之所填寫master
是由於我已經在主機的hosts
文件裏添加了映射。具體操做爲編輯hosts
,在最後一行追加(具體內容按照本身的實際狀況修改)
192.168.32.100 master 192.168.32.101 slave1 192.168.32.102 slave2
若是不配置hosts
能夠直接寫NameNode
的IP地址,可是對應的配置文件也須要修改。
從圖中能夠看出User Home Directory Access
是沒有經過測試的,可是在實際使用中並不影響。
解決辦法:經過查看日誌發現,這裏所說的User Home Directory是指windows用戶的用戶名,由於我沒有在hdfs上建立windows用戶admin的文件夾,因此會測試沒法經過。只須要在hdfs上建立/user/admin目錄便可解決這個問題。
2017-08-17 22:05:20 星期四