MaxCompute_2_MaxCompute數據遷移文檔

時間 2019-12-24

標籤 maxcompute 數據遷移文檔简体版

原文原文鏈接

摘要：乍一看標題會覺得是否是做者寫錯了怎麼會有從MaxCompute到MaxCompute遷移數據的場景呢在實際使用中已經有客戶遇到了這種場景好比兩個網絡互通的專有云環境之間數據遷移、公共雲數加DataIDE上兩個雲帳號之間數據遷移、還有網絡不通的兩個MaxCompute項目數據遷移等等下面咱們逐個場景介紹。html

免費開通大數據服務：https://www.aliyun.com/product/odpspython

乍一看標題會覺得是否是做者寫錯了，怎麼會有從MaxCompute到MaxCompute遷移數據的場景呢？在實際使用中已經有客戶遇到了這種場景，好比：兩個網絡互通的專有云環境之間數據遷移、公共雲數加DataIDE上兩個雲帳號之間數據遷移、還有網絡不通的兩個MaxCompute項目數據遷移等等，下面咱們逐個場景介紹。json

場景一：兩個網絡互通的專有云MaxCompute環境之間數據遷移網絡

這種場景須要先從源MaxCompute中導出元數據DDL，在目標MaxCompute中初始化表，而後藉助DataX工具完成數據遷移，步驟以下：工具

1.安裝配置ODPS客戶端
https://help.aliyun.com/document_detail/27804.html測試

2.安裝配置Datax客戶端
下載DataX工具包，下載後解壓至本地某個目錄，修改權限爲755，進入bin目錄，便可運行樣例同步做業：大數據

$ tar zxvf datax.tar.gz 
$ sudo chmod -R 755 {YOUR_DATAX_HOME} 
$ cd  {YOUR_DATAX_HOME}/bin 
$ python datax.py ../job/job.json

3.表結構遷移3d

3.1 從ODPS中導出某個表的建表語句，可用來測試數據同步。日誌

export table table_name;

DDL:create table IF NOT EXISTS ` date_timestame ` (`id` datetime comment "") partitioned by(pt string comment "");
alter table ` date_timestame ` add IF NOT EXISTS partition(dt='20161001');
alter table ` date_timestame ` add IF NOT EXISTS partition(dt='20161101');
alter table ` date_timestame ` add IF NOT EXISTS partition(dt='20161201');
alter table ` date_timestame ` add IF NOT EXISTS partition(dt='20170101');

3.2 從ODPS批量導出建表語句。code

export <projectname> <local_path>;

3.3 將建表語句在目標ODPS的project下執行，便可完成表結構建立。

4.數據遷移

從源ODPS讀取數據寫入到目標ODPS，先按照「表結構遷移」在目標ODPS建立一個表，作DataX數據同步驗證。

4.1 、建立做業的配置文件（json格式）

能夠經過命令查看配置模板： python datax.py -r {YOUR_READER} -w {YOUR_WRITER}

odps2odps.json樣例（填寫相關參數，odpsServer/ tunnelServer要改爲源/目標ODPS配置）：

{
    "job": {
        "setting": {
            "speed": {
                "channel": 1
            }
        },
        "content": [
            {
                "reader": {
                    "name": "odpsreader",
                    "parameter": {
                        "accessId": "${srcAccessId}",
                        "accessKey": "${srcAccessKey}",
                        "project": "${srcProject}",
                        "table": "${srcTable}",
                        "partition": ["pt=${srcPartition}"],
                        "column": [
                            "*"
                        ],
                        "odpsServer": "http://service.odpsstg.aliyun-inc.com/stgnew",
                        "tunnelServer": "http://tunnel.odpsstg.aliyun-inc.com"
                    }
                },
                "writer": {
                    "name": "odpswriter",
                    "parameter": {
                        "accessId": "${dstAccessId}",
                        "accessKey": "${dstAccessKey}",
                        "project": "${dstProject}",
                        "table": "${dstTable}",
                        "partition": "pt",
                        "column": [
                            "*"
                        ],
                        "odpsServer": "http://service.odpsstg.aliyun-inc.com/stgnew",
                        "tunnelServer": "http://tunnel.odpsstg.aliyun-inc.com"
                    }
                }
            }
        ]
    }
}

4.2 啓動DataX

$ cd {YOUR_DATAX_DIR_BIN} $ python datax.py ./odps2odps.json

同步結束，顯示日誌以下：

4.3 、批量遷移

根據導出的表結構批量生成DataX同步腳本，我會協助完成。

場景二：公共雲數加DataIDE上兩個雲帳號之間數據遷移

這個場景比較容易理解，好比一個公司極可能會申請多個雲帳號，假如每一個雲帳號都開通了MaxCompute，極可能就會碰到兩個雲帳號的MaxCompute之間數據遷移。公共雲上都藉助於DataIDE使用MaxCompute，而DataIDE上面自己提供了數據同步任務，咱們經過配置數據同步任務便可很容易的完成數據遷移。執行步驟以下：

一、在其中一個MaxCompute項目空間項目管理中添加數據源，該數據源爲另外一個雲帳號的MaxCompute項目空間。