mysql數據遷徙詳解

數據遷徙是每一個後端都會遇到的工做之一,本文介紹了一些常見的數據遷徙方法與工具html

mysqldump:數據結構不變的數據遷徙

  1. 導出數據python

    mysqldump -u root -p DATABASE_NAME table_name > dump.sql
  2. 恢復數據mysql

    mysql -u root -p DATABESE_NAME < dump.sql

    或者鏈接mysql客戶端sql

    mysql> source dump.sql

使用pymysql鏈接數據庫

  1. 能夠直接用用戶名密碼鏈接的數據庫數據庫

    class GeneralConnector:
        def __init__(self, config, return_dic=False):
            self.return_dic = return_dic
            self.config = config
    
        def __enter__(self):
            self.conn = pymysql.connect(**self.config, port=3306)
            if self.return_dic:
                # 一行數據會變成一個字典
                self.cursor = self.conn.cursor(pymysql.cursors.DictCursor)
            else:
                self.cursor = self.conn.cursor()
            return self.cursor
    
        def __exit__(self, *args):
            self.cursor.close()
            self.conn.commit()
            self.conn.close()

    使用:django

    # local_db = {
    #     'user': 'root',
    #     'passwd': '',
    #     'host': '127.0.0.1',
    #     'db': 'local_db'
    #     }
    with GeneralConnector(const.local_db, return_dic=True) as cursor:
        cursor.execute('SELECT `col1`, `col2` FROM test;')
        return cursor.fetchall()
  2. 鏈接處於須要SSH鏈接的服務器的數據庫後端

    class SSHConnector:
        def __init__(self, server, config, return_dic=False):
            self.return_dic=return_dic
            self.server = server
            self.config = config
    
        def __enter__(self):
            self.conn = pymysql.connect(**self.config, port=self.server.local_bind_port)
            if self.return_dic:
                # 一行數據會變成一個字典
                self.cursor = self.conn.cursor(pymysql.cursors.DictCursor)
            else:
                self.cursor = self.conn.cursor()
            return self.cursor
    
        def __exit__(self, *args):
            self.cursor.close()
            self.conn.commit()
            self.conn.close()

    使用:服務器

    # SERVER = SSHTunnelForwarder(
    #         (remote_host, ssh_port),
    #         ssh_username=USERNAME,
    #         ssh_pkey=SSH_KEY,
    #         ssh_private_key_password=SSH_KEY_PASSWD,
    #         remote_bind_address=('127.0.0.1', 3306) # mysql服務位置
    #     )
    # server_db = {
    #     'user': 'root',
    #     'passwd': '',
    #     'host': '127.0.0.1',
    #     'db': 'server_db'
    #     }
    # 建立一個隧道將服務端的mysql綁定到本地3306端口
    with const.SERVER as server:
        with SSHConnector(server, const.server_db) as cursor:
            cursor.execute('show tables;')
            data = cursor.fetchall()
            print(data)

cursor的各類操做

  1. cursor.execute(sql_statement)數據結構

    執行一條sql語句app

  2. cursor.fetchall()

    獲取cursor的全部結果,常跟在select語句後使用

  3. cursor.fetchone()

    獲取cursor的第一條結果

  4. cursor.lastrowid

    最後一條數據的id

  5. cursor.executemany(insert_statement, data_list)

    批量插入一批數據,如

    with const.SERVER as server:
        with connector.Connector(server, const.db_1) as cursor:
            cursor.execute('select * from preference')
            preferences = cursor.fetchall()
    
        with connector.Connector(server, const.db_2) as cursor:
            cursor.executemany('insert into preference (`id`,`theme`,`user_id`) values (%s,%s,%s)',preferences)

從cursor獲取list類型的結果

cursor.execute('SELECT `name` FROM user;')

直接使用fetchall(),只能獲得tuple包裹的數據

cursor.fetchall()
# (('Jack',), ('Ben'))

如今但願獲得一個list結果集,作到像Django中flat=True那樣的效果

有兩種方法

  1. 列表解析式(list comprehension)

    name_list = [x[0] for x in cursor.fetchall()]

    這個方法的缺點在於會先使用fetchall()將結果集讀到內存,再作列表轉換,並不高效。

  2. itertools工具

    name_list = list(itertools.chain.from_iterable(cursor))

    推薦使用這個方式,第一它不會將全部結果fetch到內存中,第二使用itertools生成列表比列表解析式要快

如何在數據遷徙中使用Django的model

  1. 須要拷貝Django的settings文件,刪掉不須要的配置,並設置好遷徙目標數據庫

  2. 須要拷貝用到此model的文件

  3. 須要在settings.INSTALLED_APPS中引入models.py文件所在的目錄

  4. 在遷徙腳本頭部啓動Django

    import os
    import django
    import sys
    sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
    os.environ.setdefault("DJANGO_SETTINGS_MODULE", "translate.settings")
    django.setup()

經過SSH隧道的本地轉發實現Django鏈接遠程數據庫

  1. 建立一個ssh隧道,將遠程數據庫映射到本地端口

    ssh -L local_port:localhost:<remote mysql port> <username>@<remote host>

    ssh鏈接進行時,能夠經過訪問本地端口來訪問遠程數據庫

  2. 在Django的settings中配置數據庫

    DATABASES = {
        'default': {
            'ENGINE': 'django.db.backends.mysql',
            'NAME': db_name,
            'USER': remote_mysql_user, # 遠程數據庫帳號密碼
            'PASSWORD': remote_mysql_password,
            'HOST': "localhost",
            'PORT': local_port, # 遠程數據庫映射到本地的端口
            'OPTIONS': {'init_command': 'SET default_storage_engine=INNODB;'}
            }
    }

至此,在使用Django的model時,將經過ssh隧道訪問遠程數據庫

注意事項

  1. 事先了解遷徙數據量,而且取5%~10%的數據測試遷徙速度
  2. 由測試數據預估總遷徙用時,若是總遷徙用時大於一小時,必定要把遷徙腳本放到服務器運行,這樣遷徙過程不易中斷,且服務器性能遠比我的電腦更優
  3. 儘可能使用批量插入減小寫數據庫的次數,使用cursor.executemany或者Django的bulk_create
  4. 遷徙過程要寫好log,這樣可以知道數據遷徙到了哪一步,如意外終端也能找到斷點繼續運行
  5. 建立時間字段加上auto_add_now會自動記錄數據的建立時間,在插入數據的時候對這個字段賦值無效

原文出處:https://www.cnblogs.com/luozx207/p/11792337.html

相關文章
相關標籤/搜索