數據集成(Data Integration)是阿里集團對外提供的可跨異構數據存儲系統的、可靠、安全、低成本、可彈性擴展的數據同步平臺,爲20+種數據源提供不一樣網絡環境下的離線(全量/增量)數據進出通道,是阿里集團對外提供的穩定高效、彈性伸縮的數據同步平臺。致力於提供複雜網絡環境下、豐富的異構數據源之間數據高速穩定的數據移動及同步能力。html
關於阿里雲數據集成平臺使用教程:阿里雲數據集成平臺使用教程shell
離線(批量)數據同步簡介數據庫
離線(批量)的數據通道主要經過定義數據來源和去向的數據源和數據集,提供一套抽象化的數據抽取插件(稱之爲 Reader)、數據寫入插件(稱之爲 Writer),並基於此框架設計一套簡化版的中間數據傳輸格式,從而達到任意結構化、半結構化數據源之間數據傳輸的目的。安全
支持數據源類型網絡
數據集成提供豐富的數據源支持,以下所示:框架
- 文本存儲(FTP / SFTP / OSS / 多媒體文件等)。
- 數據庫(RDS / DRDS / MySQL / PostgreSQL 等)。
- NoSQL(Memcache / Redis / MongoDB / HBase 等)。
- 大數據(MaxCompute / AnalyticDB / HDFS 等)。
- MPP 數據庫(HybridDB for MySQL 等)。
更多詳情請參見 支持數據源類型。less
注意:學習
因爲每一個數據源的配置信息差距較大,須要根據使用狀況詳細查詢參數配置信息。因此在數據源配置、做業配置頁面提供了詳細描述,請您根據自身狀況進行查詢使用。測試
同步開發說明大數據
同步開發提供兩種開發模式:嚮導模式和腳本模式。
- 嚮導模式:提供嚮導式的開發引導,經過可視化的填寫和下一步的引導,幫助快速完成數據同步任務的配置工做。嚮導模式的學習成本低,但沒法享受到一些高級功能。
- 腳本模式:您能夠經過直接編寫數據同步的 JSON 腳原本完成數據同步開發,適合高級用戶,學習成本較高。腳本模式能夠提供更豐富靈活的能力,作精細化的配置管理。
注意:
- 嚮導模式生成的代碼能夠轉換爲腳本模式,此轉換爲單向操做,轉換完成後沒法恢復到嚮導模式。由於腳本模式能力是嚮導模式的超集。
- 代碼編寫前須要完成數據源的配置和目標表的建立。
- 網絡類型說明
網絡類型分爲:經典網絡、專有網絡(VPC)、本地 IDC 網絡(規劃中)。
- 經典網絡:統一部署在阿里雲的公共基礎網絡內,網絡的規劃和管理由阿里雲負責,更適合對網絡易用性要求比較高的客戶。
- 專有網絡:基於阿里雲構建出一個隔離的網絡環境。您能夠徹底掌控本身的虛擬網絡,包括選擇自有的 IP 地址範圍,劃分網段,以及配置路由表和網關。
- 本地 IDC 網絡:您自身構建機房的網絡環境,與阿里雲網絡是隔離不可用的。
- 經典網絡和專有網絡相關問題請參見 經典網絡和 VPC 常見問題 FAQ 。
補充說明:
- 網絡鏈接能夠支持公網鏈接,網絡類型選擇經典網絡便可。須要注意公網帶寬的速度和相關網絡費用消耗。無特殊狀況不建議使用。
- 規劃中的網絡鏈接,進行數據同步,可使用本地新增運行資源 + 腳本模式的方案進行數據同步傳輸。或者使用 SHELL + DataX 方案,此方案請參見 使用 shell 執行 datax 任務。
- 專有網絡 VPC 是構建一個隔離的網絡環境,能夠自定義 IP 地址範圍、網段、網關等隨着專有網絡安全性提升,專有網絡運用愈來愈廣,因此數據集成提供了 RDS-MySQL、RDS-SQL Server、RDS-PostgreSQL,在專有網絡下不須要購買一臺跟 VPC 同網絡的 ECS,系統經過反向代理會自動檢測從而網絡可以互通。對於阿里雲其餘的數據庫 PPAS、OceanBase、Redis、MongoDB、Memcache、TableStore、HBase 等,後續也會提供支持。因此非 RDS 的數據源在專有網絡下配置數據集成的同步任務須要購買同網絡的 ECS,這樣能夠經過 ECS 連通網絡。
約束與限制
- 支持且僅支持結構化(例如 RDS、DRDS 等)、半結構化、無結構化(OSS、TXT 等,要求具體同步數據必須抽象爲結構化數據)的數據同步。換言之,Data Integration 支持傳輸可以抽象爲邏輯二維表的數據同步,其餘徹底非結構化數據,例如 OSS 中存放的一段 MP3,Data Integration 暫未支持將其同步到 MaxCompute,這個功能會在後期實現。
- 支持單個和部分跨 region 地域內數據存儲相互同步、交換的數據同步需求。
- 部分地域經過經典網絡是能夠傳輸的,不能保證。若是必須使用且測試經典網絡不通,能夠考慮使用公網方式鏈接。
- 僅完成數據同步(傳輸),自己不提供數據流的消費方式。
更多精品課程:
阿里雲大學官網(阿里雲大學 - 官方網站,雲生態下的創新人才工場)