KETTLE、spoon使用

ETL是Extract」、「 Transform」 、「Load」三個單詞的首字母縮寫分別表明了抽取、轉換、裝載、是數據倉庫中重要的一環、ETL是數據的抽取清洗轉換加載的過程,是數據進入數據倉庫進行大數據分析的載入過程,抽取將數據從各類原始的業務系統中讀取出來,這是全部工做的前提。轉換按照預先設計好的規則將抽取得數據進行轉換,使原本異構的數據格式能統一塊兒來。裝載將轉換完的數據按計劃增量或所有導入到數據倉庫中。大數據的利器你們可能廣泛說是hadoop,可是你們要知道若是咱們不作預先的清洗和轉換處理,咱們進入hadoop後僅經過mapreduce進行數據清洗轉換再進行分析,垃圾數據會致使咱們的磁盤佔用量會至關大,這樣無形中提高了咱們的硬件成本(硬盤大,內存小處理速度會很慢,內存大cpu性能低速度也會受影響),所以雖然hadoop理論上解決了爛機器拼起來解決大問題的問題,可是事實上若是咱們有更好的節點速度必然是會廣泛提高的,所以ETL在大數據環境下仍然是必不可少的數據交換工具。目前流行的數據進入倉庫的過程有兩種形式,一種是進入數據庫後再進行清洗和轉換,另一條路線是首先進行清洗轉換再進入數據庫,咱們的ETL屬於後者。ETL是數據整合解決方案。目前的運行應用系統是用戶花了大部分精力和構建的、系統中的數據時很是寶貴的、是不可代理的系統、它的存在是爲了解決原始數據庫中的數據來源與格式的不一樣致使的系統實施、數據整合問題。
KETTLE是一款很優秀的開源ELT工具、java編寫的、能夠在Window、Linux、Unix上運行、KETTLE應用普遍,並且使用方便、抽取高效穩定。僅僅學會使用就能夠找到一份不錯的工做課程滲透了大數據的一些處理方法,與目前流行的hadoop配合使用。分析KETTLE源碼,即便對ETL興趣不大,至少能夠了解國外開源項目的一些源碼,而且KETTLE自己也使用了不少開源項目,所以能夠從該工具上學到更多東西java

相關文章
相關標籤/搜索