解讀當前企業在數據集成方面遭遇的四大挑戰

什麼是數據集成?最簡單的應用場景就是:一個數據源,一個數據目的地,數據目的地能夠是個數據倉庫,把關係型數據庫的數據同步到數據倉庫裏,就造成了一次數據集成。數據庫

下面,咱們來看一個真實的數據集成企業案例。api

G公司是DataPipeline的一個典型客戶,擁有近千個數據源,類型主要包括Oracle、SQL Server、MySQL等。根據業務的須要和現有的基礎設施狀況,這些數據源分別須要同步到不一樣的目的端,類型主要包括MySQL、HDFS、Kafka等。基於以上背景,G公司的具體要求以下:運維

1. 須要支持約5TB日新增數據量的同步,今年將增加5-10倍。orm

2. 這些數據一部分數據源要求實時同步,另外一部分可接受定時同步。blog

3. 缺少強大的運維人才,現有數據源的業務承載壓力有限,對壓力很是的敏感,要求進行限流。ip

4. 從這些數據源到目的地的同步都是Kettle寫腳本實現的,管理起來比較混亂,要求經過一個管理平臺對任務進行集中化的配置和管理。同步

5. 上游的數據源和下游的數據目的都不穩定,隨時可能出現各類問題,要求經過一個高可用的平臺以減小數據傳輸中斷的影響。數據分析

6. 當數據同步任務被隨機的暫停/恢復時,要求能夠保證數據的完整性。pip

7. 當數據源和目的地隨機出現故障和過載時,要求能夠保證數據的完整性。io

8. 當數據源Schema發生變化時,要求能夠根據業務需求靈活配置目的地策略。

G公司的案例只是當前企業數據集成需求的一個典型應用場景。事實上,不管是互聯網企業仍是傳統企業,在面臨數據集成的時候都會遇到如下4個挑戰:

1. 數據源的異構性:傳統ETL方案中,從數據源到目的地的同步都是腳本實現的,異構數據源就意味着企業要作大量的適配工做。

2. 數據源的動態性:在數據集成時,上游的數據源端常常會發生各類變化,有些數據源可能被刪掉一些結構,這可能會影響到後續數據分析的結果。

3. 任務的可伸縮性:當數據集成只有幾個數據源,系統壓力的問題不太突出。當數據集成面臨的是成百上千個數據源時,多任務並行就須要進行一些限速與緩衝的調度,讓讀寫速度相互匹配。

4. 任務的容錯性:當數據在傳輸過程當中出現問題的時候,是否能夠實現斷點重傳,且不產生重複的數據。

以上也是DataPipeline要爲企業數據集成過程當中解決的最關鍵的4個問題。

更多關於實時數據集成的問題,歡迎直接訪問官方網址申請試用:www.datapipeline.com

相關文章
相關標籤/搜索