PostgreSQL多線程備份與恢復

1、環境

CentOS7下8核的cpu,數據庫的配置是initdb後默認的:html

$ cat /etc/redhat-release
CentOS Linux release 7.0.1406 (Core)
$ uname -a
Linux zhaopin-2-203 3.10.0-123.el7.x86_64 #1 SMP Mon Jun 30 12:09:22 UTC 2014 x86_64 x86_64 x86_64 GNU/Linux
$  cat /proc/cpuinfo  | grep processor | wc -l
8
$ psql --version
psql (PostgreSQL) 9.4.5
$ psql -U postgres -d test
psql (9.4.5)
Type "help" for help.

test=# \dt+
                    List of relations
 Schema | Name  | Type  |  Owner   |  Size  | Description
--------+-------+-------+----------+--------+-------------
 public | test1 | table | postgres | 275 MB |
 public | test2 | table | postgres | 275 MB |
 public | test3 | table | postgres | 275 MB |
 public | test4 | table | postgres | 275 MB |
 public | test5 | table | postgres | 275 MB |
 public | test6 | table | postgres | 275 MB |
 public | test7 | table | postgres | 275 MB |
 public | test8 | table | postgres | 275 MB |
(8 rows)

test=# \q


2、參數

1. pg_dump
$ pg_dump --help
pg_dump dumps a database as a text file or to other formats.

Usage:
  pg_dump [OPTION]... [DBNAME]

General options:
  -f, --file=FILENAME          output file or directory name
  -F, --format=c|d|t|p         output file format (custom, directory, tar,
                               plain text (default))
  -j, --jobs=NUM               use this many parallel jobs to dump
  -v, --verbose                verbose mode
  -V, --version                output version information, then exit
  -Z, --compress=0-9           compression level for compressed formats
  --lock-wait-timeout=TIMEOUT  fail after waiting TIMEOUT for a table lock
  -?, --help                   show this help, then exit

Options controlling the output content:
  -a, --data-only              dump only the data, not the schema
  -b, --blobs                  include large objects in dump
  -c, --clean                  clean (drop) database objects before recreating
  -C, --create                 include commands to create database in dump
  -E, --encoding=ENCODING      dump the data in encoding ENCODING
  -n, --schema=SCHEMA          dump the named schema(s) only
  -N, --exclude-schema=SCHEMA  do NOT dump the named schema(s)
  -o, --oids                   include OIDs in dump
  -O, --no-owner               skip restoration of object ownership in
                               plain-text format
  -s, --schema-only            dump only the schema, no data
  -S, --superuser=NAME         superuser user name to use in plain-text format
  -t, --table=TABLE            dump the named table(s) only
  -T, --exclude-table=TABLE    do NOT dump the named table(s)
  -x, --no-privileges          do not dump privileges (grant/revoke)
  --binary-upgrade             for use by upgrade utilities only
  --column-inserts             dump data as INSERT commands with column names
  --disable-dollar-quoting     disable dollar quoting, use SQL standard quoting
  --disable-triggers           disable triggers during data-only restore
  --exclude-table-data=TABLE   do NOT dump data for the named table(s)
  --if-exists                  use IF EXISTS when dropping objects
  --inserts                    dump data as INSERT commands, rather than COPY
  --no-security-labels         do not dump security label assignments
  --no-synchronized-snapshots  do not use synchronized snapshots in parallel jobs
  --no-tablespaces             do not dump tablespace assignments
  --no-unlogged-table-data     do not dump unlogged table data
  --quote-all-identifiers      quote all identifiers, even if not key words
  --section=SECTION            dump named section (pre-data, data, or post-data)
  --serializable-deferrable    wait until the dump can run without anomalies
  --use-set-session-authorization
                               use SET SESSION AUTHORIZATION commands instead of
                               ALTER OWNER commands to set ownership

Connection options:
  -d, --dbname=DBNAME      database to dump
  -h, --host=HOSTNAME      database server host or socket directory
  -p, --port=PORT          database server port number
  -U, --username=NAME      connect as specified database user
  -w, --no-password        never prompt for password
  -W, --password           force password prompt (should happen automatically)
  --role=ROLENAME          do SET ROLE before dump

If no database name is supplied, then the PGDATABASE environment
variable value is used.

Report bugs to <pgsql-bugs@postgresql.org>.
2. pg_restore
$ pg_restore --help
pg_restore restores a PostgreSQL database from an archive created by pg_dump.

Usage:
  pg_restore [OPTION]... [FILE]

General options:
  -d, --dbname=NAME        connect to database name
  -f, --file=FILENAME      output file name
  -F, --format=c|d|t       backup file format (should be automatic)
  -l, --list               print summarized TOC of the archive
  -v, --verbose            verbose mode
  -V, --version            output version information, then exit
  -?, --help               show this help, then exit

Options controlling the restore:
  -a, --data-only              restore only the data, no schema
  -c, --clean                  clean (drop) database objects before recreating
  -C, --create                 create the target database
  -e, --exit-on-error          exit on error, default is to continue
  -I, --index=NAME             restore named index
  -j, --jobs=NUM               use this many parallel jobs to restore
  -L, --use-list=FILENAME      use table of contents from this file for
                               selecting/ordering output
  -n, --schema=NAME            restore only objects in this schema
  -O, --no-owner               skip restoration of object ownership
  -P, --function=NAME(args)    restore named function
  -s, --schema-only            restore only the schema, no data
  -S, --superuser=NAME         superuser user name to use for disabling triggers
  -t, --table=NAME             restore named table
  -T, --trigger=NAME           restore named trigger
  -x, --no-privileges          skip restoration of access privileges (grant/revoke)
  -1, --single-transaction     restore as a single transaction
  --disable-triggers           disable triggers during data-only restore
  --if-exists                  use IF EXISTS when dropping objects
  --no-data-for-failed-tables  do not restore data of tables that could not be
                               created
  --no-security-labels         do not restore security labels
  --no-tablespaces             do not restore tablespace assignments
  --section=SECTION            restore named section (pre-data, data, or post-data)
  --use-set-session-authorization
                               use SET SESSION AUTHORIZATION commands instead of
                               ALTER OWNER commands to set ownership

Connection options:
  -h, --host=HOSTNAME      database server host or socket directory
  -p, --port=PORT          database server port number
  -U, --username=NAME      connect as specified database user
  -w, --no-password        never prompt for password
  -W, --password           force password prompt (should happen automatically)
  --role=ROLENAME          do SET ROLE before restore

The options -I, -n, -P, -t, -T, and --section can be combined and specified
multiple times to select multiple objects.

If no input file name is supplied, then standard input is used.

Report bugs to <pgsql-bugs@postgresql.org>.

能夠看到pg_dump和pg_restore都有-j, --jobs=NUM參數,能夠使用多線程並行。這個功能是從9.3開始支持的,具體相見release note:http://www.postgresql.org/docs/9.4/interactive/release-9-3.html
sql


3、pg_dump備份數據對比

1. 單線程
$ rm -fr test; mkdir -p test; date '+%F %T'; pg_dump -U postgres -d test -F d -f test; date '+%F %T'
2015-11-05 17:10:04
2015-11-05 17:10:44
$  ps aux | grep pg_dump | grep -v grep
wenhang+ 50634  116  0.0 118424  2996 pts/1    R+   17:10   0:02 pg_dump -U postgres -d test -F d -f test

這條命令的意思是先刪除test文件夾;再建立test文件夾;打印當前時間;使用pg_dump備份數據庫到test目錄,-F d是指定備份格式是目錄;再打印當前時間。這兩個時間差就是備份須要的時間1分40秒。數據庫

2. 多線程
$ rm -fr test; mkdir -p test; date '+%F %T'; pg_dump -U postgres -d test -j 8 -F d -f test; date '+%F %T'
2015-11-05 17:09:00
2015-11-05 17:09:14
$  ps aux | grep pg_dump | grep -v grep
wenhang+ 50546  0.0  0.0 118100  2668 pts/1    S+   17:09   0:00 pg_dump -U postgres -d test -j 8 -F d -f test
wenhang+ 50548 85.9  0.0 120516  4136 pts/1    R+   17:09   0:15 pg_dump -U postgres -d test -j 8 -F d -f test
wenhang+ 50549 84.8  0.0 120516  4200 pts/1    R+   17:09   0:15 pg_dump -U postgres -d test -j 8 -F d -f test
wenhang+ 50550 86.3  0.0 120516  4264 pts/1    R+   17:09   0:15 pg_dump -U postgres -d test -j 8 -F d -f test
wenhang+ 50551 84.8  0.0 120516  4324 pts/1    R+   17:09   0:15 pg_dump -U postgres -d test -j 8 -F d -f test
wenhang+ 50552 87.3  0.0 120516  4344 pts/1    R+   17:09   0:15 pg_dump -U postgres -d test -j 8 -F d -f test
wenhang+ 50553 86.8  0.0 121992  5820 pts/1    R+   17:09   0:15 pg_dump -U postgres -d test -j 8 -F d -f test
wenhang+ 50554 86.5  0.0 120516  4392 pts/1    R+   17:09   0:15 pg_dump -U postgres -d test -j 8 -F d -f test
wenhang+ 50556 85.7  0.0 120516  4208 pts/1    R+   17:09   0:15 pg_dump -U postgres -d test -j 8 -F d -f test

這裏加了-j 8參數,使用8線程並行,只用了14秒,可見相差了不少倍。session

使用目錄格式備份的緣由是並行備份只支持目錄格式,不然會出現以下錯誤:多線程

pg_dump: parallel backup only supported by the directory format

4、pg_restore恢復數據對比

1. 單線程
$ psql -U postgres -c 'drop database if exists test;'; psql -U postgres -c 'create database test;'; date '+%F %T'; pg_restore -U postgres -d test -F d test ; date '+%F %T'
DROP DATABASE
CREATE DATABASE
2015-11-05 17:11:36
2015-11-05 17:13:20
$ ps aux | grep pg_restore | grep -v grep
wenhang+ 50758 26.0  0.0 116740  1200 pts/1    S+   17:11   0:00 pg_restore -U postgres -d test -F d test

這條命令的意思是先刪除數據庫test;再建立數據庫test;打印當前時間;從test目錄恢復數據庫test;-F d是指定恢復格式是目錄;再打印當前時間。這兩個時間差就是恢復須要的時間差1分44秒。app

2. 多線程
$ psql -U postgres -c 'drop database if exists test;'; psql -U postgres -c 'create database test;'; date '+%F %T'; pg_restore -U postgres -d test -j 8 -F d test ; date '+%F %T'
DROP DATABASE
CREATE DATABASE
2015-11-05 17:26:22
2015-11-05 17:26:56
$ ps aux | grep pg_restore | grep -v grep
wenhang+ 53848  0.0  0.0 116600  1264 pts/1    S+   17:26   0:00 pg_restore -U postgres -d test -j 8 -F d test
wenhang+ 53850 11.7  0.0 116744   976 pts/1    S+   17:26   0:02 pg_restore -U postgres -d test -j 8 -F d test
wenhang+ 53851 11.9  0.0 116744   976 pts/1    S+   17:26   0:02 pg_restore -U postgres -d test -j 8 -F d test
wenhang+ 53852 12.1  0.0 116744   976 pts/1    S+   17:26   0:02 pg_restore -U postgres -d test -j 8 -F d test
wenhang+ 53853 12.2  0.0 116744   976 pts/1    S+   17:26   0:02 pg_restore -U postgres -d test -j 8 -F d test
wenhang+ 53854 12.0  0.0 116744   976 pts/1    S+   17:26   0:02 pg_restore -U postgres -d test -j 8 -F d test
wenhang+ 53855 12.6  0.0 116744   976 pts/1    S+   17:26   0:02 pg_restore -U postgres -d test -j 8 -F d test
wenhang+ 53857 11.6  0.0 116744   976 pts/1    S+   17:26   0:02 pg_restore -U postgres -d test -j 8 -F d test
wenhang+ 53858 12.2  0.0 116744   976 pts/1    S+   17:26   0:02 pg_restore -U postgres -d test -j 8 -F d test

可見多線程恢復也快了很多,若是io更快的話,這個提高會更明顯socket

相關文章
相關標籤/搜索