MySQL/RDS數據如何同步到MaxCompute之實踐講解

實驗方案概述
本實驗是對RDS同步數據到MaxCompute的一個初步講解。當企業須要利用MaxCompute進行數據開發時,若是數據不在MaxCompute而在RDS中,首先須要將RDS中的數據同步到MaxCompute。本實驗將以RDS(MySQL)爲例,具體講解此過程的操做步驟以及一些容易遇到的問題,爲企業的數據同步過程提供一些指導與幫助。數據庫

本次同步過程的方案分爲如下兩個鏈路:1)經過DataWorks中的數據集成功能進行同步;2)經過DTS(數據傳輸服務)進行同步。
方案1須要在DataWorks中新建RDS和MaxCompute的數據源,利用抽象化的數據抽取插件(Reader),數據寫入插件(Writer)進行數據傳輸,達到數據同步的目的;
方案2利用DTS服務肯定同步的數據來源及數據去向進行同步。安全

下圖是同步的方案流程圖,數據來源是RDS,包括兩個數據同步鏈路,分別是DataWorks和DTS,數據最終要同步到MaxCompute中。
_5服務器

下面分別介紹一下上圖方案中涉及到的一系列功能或平臺:
•RDS
RDS是阿里雲關係型數據庫,是一種穩定可靠、可彈性伸縮的在線數據庫服務。它基於阿里雲分佈式文件系統和SSD盤高性能存儲,同時支持多種數據庫類型,如MySQL、SQL Server、PostgreSQL。
image網絡

•數據集成
數據集成是DataWorks中的一個功能,是阿里集團對外提供的穩定高效,彈性伸縮的數據同步平臺,致力於提供複雜網絡環境下、豐富的異構數據源之間數據高速穩定的數據移動及同步能力。
image併發

•DTS
DTS是一種數據傳輸服務,其支持RDBMS、NoSQL、OLAP等數據源間的數據交互。DTS具有極高的鏈路穩定性和數據可靠性。數據傳輸支持同/異構數據源之間的數據交互,提供數據遷移/訂閱/同步交互功能。
image分佈式

進行實驗以前須要進行操做環境的準備:若是使用DataWorks數據集成,須要確保MaxCompute服務已開通,DataWorks項目空間已開通;若是使用DTS,則須要購買DTS服務。性能

同步操做步驟
下面介紹數據同步到MaxCompute具體的操做步驟:
•DataWorks數據集成
1.以項目管理員身份登錄DataWorks控制檯,單擊工做空間列表,找到對應的工做空間,單擊進入數據集成選項。
image測試

2.單擊任務列表同步資源管理中的數據源選項,在右上方選擇新增數據源。
image阿里雲

3.由於作的是RDS同步到MaxCompute,所以須要分別添加兩種類型的數據源,首先添加數據來源,選擇新增數據庫類型爲MySQL關係型數據庫。
image插件

4.數據源選擇完成後須要填寫數據源的配置項。數據源類型選擇阿里雲數據庫(RDS),填寫對應RDS實例ID,RDS實例主帳號ID。填寫RDS中對應的MySQL數據庫名稱及密碼。最後測試連通性,顯示測試連通性成功證實配置成功。須要注意的一點是,在鏈接以前還需配置RDS的白名單,確保RDS能夠被其餘設備訪問,後面會詳細介紹。
image

5.新增MaxCompute類型的數據源。
image

6.配置MaxCompute類型數據源,填寫數據源名稱和適用環境(開發和生產),類型Endpoint,對應MaxCompute項目名稱,AccessKey ID以及AccessKey Secret。至此,建立數據源已經完成。
image

7.以開發者身份進入DataWorks管理控制檯,找到對應項目後點擊進入數據開發選項。
image

8.進入DataStudio(數據開發)頁面,新建業務流程(下圖紅色框),填寫業務流程名稱及描述。
image

9.在DataWorks中創建對應RDS中的表,並在業務流程下的數據集成選項中新建數據同步節點並提交。
image

10.配置數據來源與數據去向,須要配置的數據源是剛纔添加的數據源,數據來源是MySQL,它的表是RDS中對應的表,目標數據源是MaxCompute,其餘的如清理規則、空字符串是否爲null的配置選項,默認選擇便可。
image

11.配置完成後能夠保存並運行同步數據節點,查詢MaxCompute的同步表中是否存在數據,且與RDS的數據一致,判斷同步是否成功。
image

下面介紹如何利用DTS進行數據同步。
•DTS數據同步
1.首先須要登錄數據傳輸控制檯,在左側導航欄中點擊數據同步選項。
image

2.單擊完成後在控制檯的右上方點擊建立同步做業選項,購買DTS服務,前面提到使用DTS須要提早購買服務,指的即是這步操做。須要注意的一點是,所購買的DTS所屬的Region儘可能要和RDS以及MaxCompute的Region一致,爲了不後續操做中沒必要要的麻煩。
image
image

3.找到購買的DTS實例,單擊配置同步鏈路。須要填寫購買的RDS實例ID,RDS中數據庫的用戶名、密碼,須要同步到的MaxCompute項目名稱。配置同步鏈路完成以後單擊受權白名單並進入下一步選項,將DTS服務器的IP地址自動添加到RDS實例和MaxCompute實例的白名單中,保障DTS服務器可以正常鏈接源和目標實例。
image

4.單擊下一步,容許將MaxCompute中項目的下述權限授予給DTS同步帳號。
image

5.配置同步策略和同步對象,配置完成以後單擊預檢查並啓動。只有預檢查經過後纔會成功啓動數據同步做業。若是預檢查失敗,能夠根據提示詳情修復後從新進行預檢查。
image

DTS數據同步配置的參數主要有:1)同步通道的源實例及目標實例信息;2)同步策略和同步對象。其中源實例及目標實例信息的配置須要注意的是源實例的名稱和同步做業的信息,還有實例類型、地區和ID,同步策略和同步對象的配置須要注意的是增量日誌表分區定義、同步初始化、目標已存在的表的處理模式以及選擇同步對象。
image

6.在預檢查對話框顯示預檢查經過後,關閉預檢查對話框後同步做業正式開始。用戶能夠在數據同步做業頁面查看同步的狀態。
image

7.同步完成後,會在MaxCompute的生產環境中生成兩張表,一張以_base結尾,存儲同步到的數據,另外一張以_log結尾,存儲增量數據和元信息。用戶能夠經過查詢表數據肯定同步過程是否成功。
image

實驗注意事項及易遇到的問題
1.須要配置RDS的白名單,確保RDS能夠被訪問,不然會同步失敗。
image

2.關於配置RDS白名單,須要登錄到RDS控制檯,找到對應Region下的RDS實例並進入。單擊設置白名單選項,這裏之內網地址的設置白名單爲例。
image

3.默認IP地址爲127.0.0.1,表示不容許任何設備訪問該RDS實例,須要修改容許其餘設備訪問。
image

4.須要修改默認地址,填寫須要訪問該實例的IP地址或IP段,如10.10.10.0/24,表示10.10.10.x的網段均可以訪問該實例。0.0.0.0/0表示任意設備均可以訪問該實例,此設置有必定安全風險,請謹慎使用。
image

5.針對DataWorks數據集成的快速批量配置,在公共雲上,若是用戶想對RDS同步到MaxCompute進行快速批量配置,能夠進行整庫遷移操做。以下圖所示,找到添加到的數據源,單擊整庫遷移批量配置的選項。
image

單擊整庫遷移批量配置的選項後,就能夠進入到快速批量配置界面,須要選擇要同步的數據表、建立生產環境表、選擇同步方式等。下圖展現了快速批量配置界面待遷移表篩選區、遷移模式、併發控制區。
image

此外,還能夠進行高級設置,提供表名稱,列名稱,列類型的映射轉換規則
image

6.當使用DTS同步時,會在同步的目標表中添加一些附加列。若是附加列和目標表中已有的列名稱衝突會致使同步失敗,能夠經過啓用新的附加列規則避免衝突,此配置會在舊版附加列的基礎上加上new_dts_sync_的前綴。
image

 

 

 

 

 

 

 

 

 

原文連接

本文爲雲棲社區原創內容,未經容許不得轉載。

相關文章
相關標籤/搜索