本身總結的etl數挖掘據工具-Kettle

etl工做中
Kettle軟件介紹
Pentaho Data Integration (Kettle)是Pentaho生態系統中默認的ETL工具。Kettle是一款國外開源的etl工具,純java編寫,綠色無需安裝,數據抽取高效穩定(數據遷移工具)。Kettle中有兩種腳本文件,transformation和job,transformation完成針對數據的基礎轉換,job則完成整個工做流的控制。
經過很是直觀的圖形化編輯器(Spoon),您能夠定義以XML格式儲存的流程。在Kettle運行過程當中,這些流程會以不一樣的方法編譯。用到的工具包括命令行工具(Pan),小型服務器(Carte),數據庫存儲庫(repository)(Kitchen)或者直接使用IDE(Spoon)。
 
Kettle 中文名稱叫水壺,該項目的主程序員MATT 但願把各類數據放到一個壺裏,而後以一種指定的格式流出。
Kettle 將 ELT 流程編譯爲 XML 格式,學起來十分簡單,Pentaho Data Integration (Kettle) 使用 Java (Swing)開發。Kettle 做爲編譯器對 XML 格式書寫的流程進行編譯。這些功能和組件比起 Talend 在豐富性方面稍遜一些,可是您創建複雜 ETL 流程須要的一切元素。Kettle 的 JavaScript 引擎(和 Java 引擎)能夠深層地控制對數據的處理。
Kettle使用教程:
Kettle本身有三個主要組件:Spoon,Kitchen,Pan。其中Spoon是一個圖形化的界面,用於windows的時候,先設置環境變量:pentaho_java_home,例如:C:\Program Files\Java\jdk1.7.0_25,其實就是你的java安裝目錄,1.6以上便可。windows下雙擊Spoon.bat就能夠了.java

安裝Kettlemysql

1.因爲軟件是由java 編寫 須要 先安裝jdk jdk 版本要求是1.6
2.安裝完成後 要在window 下 設置環境變量
3.在administratorbian變量path 中 增長java變量 ;C:\Program Files\Java\jdk1.6.0_43\bin
4.新建 系統變量 JAVA_HOME C:\Program Files\Java\jdk1.6.0_43程序員

  1. 系統變量path 中 ;C:\Program Files\TortoiseSVN\bin;C:\Program Files\Java\jdk1.6.0_43\bin6.在dos 下 輸入javac 測試 環境變量7.若是須要鏈接mysql 數據庫須要把mysql 數據庫的安裝包mysql-connector-java-5.1.18-bin放到D:\工具\kettle\data-integration\libext\JDBC8.使用spoon 不須要安裝 雙擊spoon 用戶名admin 密碼不輸入 進入軟件界面9.進入界面後 新建做業或者轉換 進行數據庫鏈接
相關文章
相關標籤/搜索