有關數倉增量和全量同步的一些思考

1、背景 相信不少公司都是基於Hive作的數倉,從而對外提供數據服務。這裏只討論離線數倉,作數倉必然離不開對大量數據的ETL處理工做。目前的ETL種類繁多,可選擇的工具也有不少,好比使用Sqoop, DataX作離線的T+1數據同步, Spark或者Flink作T+0的實時數據同步等。web 目前有不少公司業務是T+1的,天天須要同步昨天的業務庫(MySQL、mongodb等)的數據到Hive數據
相關文章
相關標籤/搜索