遇到一個有情懷,有想法的Boss,你只能不斷的提高本身,你須要不斷的在原有的技能基礎上不斷的擴充本身。前端
最近團隊在作教育領域的項目,須要與衆多三方進行對接(剛開始本來團隊進行開發,因爲客戶時間限制,須要引入),而數據之間的交換變成了重點,以誰爲中心已然被提上了日程。其中對接的三方成熟產品因爲雙方的編碼規則以及實現的單點登陸機制不一樣,兩個系統之間的數據共享存在必定的差別性。以三方成熟產品爲主,那麼現有系統的衆多模塊須要更改,成本有點高。而以公司目前的產品爲主,三方成熟產品並不會贊成,所以之間的阻礙已經成爲首要解決的問題。數據庫
對於企業來講,數據的重要性必須牢牢握在本身手中,爲後續系統升級、擴充、數據分析等作戰前準備。Boss不知道在哪兒聽到,能夠搭建企業數據中心,便開啓臨時會議模式,將鄙人從本來項目組抽離,成立所謂的「數據中心」小組進行數據的整合,達到最終以數據中心爲主,不管誰要進都須要符合數據中心的規則。後端
對於一個純粹的Java後端開發人來講(偶爾也會搞搞前端),這個轉型跨度有點大,瞬間感受本身的逼格提高了不少(後來才知道,這是一種奢望)。網絡
接下來開始整理各種資料,什麼是數據中心,這即是首要了解的問題。百度百科:數據中心是全球協做的特定的設備網絡,用來在Internet網絡基礎設施上傳遞、加速、展現、計算、存儲數據信息。 什麼鬼?與我想象中的數據中心有點差異啊,難道我本身沒有理解Boss所說的「數據中心」?工具
回想Boss所說,將數據緊緊抓在本身手中,後續三方產品入駐教育機構須要知足數據中心的規範。這是什麼呢?與數據中心的概念有點差距啊,怎麼感受就是一個數據中轉站呢?你須要什麼你告訴我,我給你你須要的特定數據,其餘的你別想沾手。有點像數據集成呢?百度百科:數據集成是把不一樣來源、格式、特色性質的數據在邏輯上或物理上有機地集中,從而爲企業提供全面的數據共享。學習
終於明白Boss要搞什麼了,並非數據中心,而是一個將衆多數據庫放在一個倉庫中統一管理,三方需求須要一組特定的數據時,來數據倉庫中拿,但在拿以前還須要對原有分散的數據進行抽取、清理、加工,而後整理成統一的、一致的數據,供三方調用。 將不一樣數據庫、同數據庫存在數據差別的數據整理成一套一致的數據,怎麼將這些數據庫統一來管理,統一來抽取數據,怎麼驗證數據的正確性,怎麼剔除不須要的數據,怎麼對數據進行合併、分離,怎麼將不一樣屬性的數據轉換成統一的?這都是很繁雜的問題,而在開源社區提供的一款名爲Kettle
的ETL
工具,將幫助咱們解決這衆多的問題。編碼
最後,在翻看了衆多的資料後,我終於完全明白,Boss讓我作什麼,其實就是像剛開始學習Word
使用同樣學會使用Kettle
工具。而後就如同洗車行同樣,將一輛輛車洗的乾乾淨淨。code
若存在理解差別或者理解偏差,望掘友
給出合理的建議,這裏拜謝!對於一個還在門口徘徊的學徒,您的建議或者意見將會給我很大的幫助!接下來將在學習之餘整理Kettle
的使用,不對如今已經叫Pentaho Data Integration
。後端開發