RSYNC--數據遷移、備份

前言
一臺Solaris主機要下線了,準備將數據遷移至一臺AIX主機上,但是在Solaris主機上有一個文件系統有1200萬個小文件,由於是跨平臺的數據遷移,採用磁盤底層複製沒法進行,採用數據備份恢復須要40個小時以上,經過查閱資料,本身搭建測試環境實踐,發現rsync軟件能夠知足數據遷移的需求。
1、Rsync介紹:

Rsync(remote synchronize)是一個遠程數據同步工具,可經過LAN/WAN快速同步多臺主機間的文件。Rsync使用所謂的「Rsync算法」來使本地和遠程兩個主機之間的文件達到同步,這個算法只傳送兩個文件的不一樣部分,而不是每次都整份傳送,所以速度至關快。Rsync原本是用於替代rcp的一個工具,目前由rsync.samba.org維護,因此rsync.conf文件的格式相似於samba的主配置文件。Rsync能夠經過rsh或ssh使用,也能以daemon模式去運行,在以daemon方式運行時Rsync server會打開一個873端口,等待客戶端去鏈接。鏈接時,Rsync server會檢查口令是否相符,若經過口令查覈,則能夠開始進行文件傳輸。第一次連通完成時,會把整份文件傳輸一次,之後則就只需進行增量備份。Rsync支持大多數的類Unix系統,不管是Linux、Solaris仍是BSD上都通過了良好的測試。此外,它在windows平臺下也有相應的版本,如cwRsync和Sync2NAS等工具。算法

2、Rsync特色:shell

  1.能夠鏡像保存整個目錄樹和文件系統;windows

 

  2.能夠很容易作到保持原來文件的權限、時間、軟硬連接等;安全

 

  3.無須特殊權限便可安裝;服務器

 

  4.優化的流程,文件傳輸效率高;網絡

 

  5.可使用rsh、ssh等方式來傳輸文件,固然也能夠經過直接的socket鏈接;併發

 

  6.支持匿名傳輸。app

3、Rsync同步算法:ssh

Rsync只因此同步文件的速度至關快,是由於「Rsync同步算法」能在很短的時間內計算出須要備份的數據,關於Rsync的同步算法描述以下:socket

假定在1號和2號兩臺計算機之間同步類似的文件A與B,其中1號對文件A擁有訪問權,2號對文件B擁有訪問權。而且假定主機1號與2號之間的網絡帶寬很小。那麼rsync算法將經過下面的五個步驟來完成:

一、2號將文件B分割成一組不重疊的固定大小爲S字節的數據塊,最後一塊可能會比S 小。

二、2號對每個分割好的數據塊執行兩種校驗:一種是32位的滾動弱校驗,另外一種是128位的MD4強校驗。

三、2號將這些校驗結果發給1號。

四、1號經過搜索文件A的全部大小爲S的數據塊(偏移量能夠任選,不必定非要是S的倍數),來尋找與文件B的某一塊有着相同的弱校驗碼和強校驗碼的數據塊。這項工做能夠藉助滾動校驗的特性很快完成。

五、1號發給2號一串指令來生成文件A在2號上的備份。這裏的每一條指令要麼是對文件B經擁有某一個數據塊而不須重傳的證實,要麼是一個數據塊,這個數據塊確定是沒有與文件B的任何一個數據塊匹配上的。

三、Rsync參數說明3.1 rsyncd.conf配置文件-、全局參數

在文件中[module]以前的全部參數都是全局參數,固然也能夠在全局參數部分定義模塊參數,這時候該參數的值就是全部模塊的默認值。

port

指定後臺程序使用的端口號,默認爲873。

motd file

" motd file" 參數用來指定一個消息文件,當客戶鏈接服務器時該文件的內容顯示給客戶,默認是沒有motd文件的。

log file

" log file" 指定rsync的日誌文件,而不將日誌發送給syslog。好比可指定爲「/var/log/rsyncd.log」。

pid file

指定rsync的pid文件,一般指定爲「/var/run/rsyncd.pid」。

syslog facility

指定rsync發送日誌消息給syslog時的消息級別,常見的消息級別是:uth, authpriv, cron, daemon, ftp, kern, lpr, mail, news, security, sys-log, user, uucp, local0, local1, local2, local3,local4, local5, local6和local7。默認值是daemon。

4、模塊參數

主要是定義服務器哪一個目錄要被同步。其格式必須爲「[module]」形式,這個名字就是在rsync 客戶端看到的名字,其實有點象Samba服務器提供的共享名。而服務器真正同步的數據是經過 path 來指定的。咱們能夠根據本身的須要,來指定多個模塊,模塊中能夠定義如下參數:

comment

給模塊指定一個描述,該描述連同模塊名在客戶鏈接獲得模塊列表時顯示給客戶。默認沒有描述定義。

path

指定該模塊的供備份的目錄樹路徑,該參數是必須指定的。

use chroot

若是" use chroot" 指定爲true,那麼rsync在傳輸文件之前首先chroot到path參數所指定的目錄下。這樣作的緣由是實現額外的安全防禦,可是缺點是須要以roots權限,而且不能備份指向外部的符號鏈接所指向的目錄文件。默認狀況下chroot值爲true。

uid

該選項指定當該模塊傳輸文件時守護進程應該具備的uid,配合gid選項使用能夠肯定哪些能夠訪問怎麼樣的文件權限,默認值是" nobody" 。

gid

該選項指定當該模塊傳輸文件時守護進程應該具備的gid。默認值爲" nobody" 。

max connections

指定該模塊的最大併發鏈接數量以保護服務器,超過限制的鏈接請求將被告知隨後再試。默認值是0,也就是沒有限制。

list

該選項設定當客戶請求可使用的模塊列表時,該模塊是否應該被列出。若是設置該選項爲false,能夠建立隱藏的模塊。默認值是true。

read only

該選項設定是否容許客戶上載文件。若是爲true那麼任何上載請求都會失敗,若是爲false而且服務器目錄讀寫權限容許那麼上載是容許的。默認值爲true。

exclude

用來指定多個由空格隔開的多個文件或目錄(相對路徑),並將其添加到exclude列表中。這等同於在客戶端命令中使用--exclude來指定模式,一個模塊只能指定一個exclude選項。可是須要注意的一點是該選項有必定的安全性問題,客戶頗有可能繞過exclude列表,若是但願確保特定的文件不能被訪問,那就最好結合uid/gid選項一塊兒使用。

exclude from

指定一個包含exclude模式的定義的文件名,服務器從該文件中讀取exclude列表定義。

include

用來指定不排除符合要求的文件或目錄。這等同於在客戶端命令中使用--include來指定模式,結合include和exclude能夠定義複雜的exclude/include規則。

include from

指定一個包含include模式的定義的文件名,服務器從該文件中讀取include列表定義。

auth users

該選項指定由空格或逗號分隔的用戶名列表,只有這些用戶才容許鏈接該模塊。這裏的用戶和系統用戶沒有任何關係。若是" auth users" 被設置,那麼客戶端發出對該模塊的鏈接請求之後會被rsync請求challenged進行驗證身份這裏使用的challenge/response認證協議。用戶的名和密碼以明文方式存放在" secrets file" 選項指定的文件中。默認狀況下無需密碼就能夠鏈接模塊(也就是匿名方式)。

secrets file

該選項指定一個包含定義用戶名:密碼對的文件。只有在" auth users" 被定義時,該文件纔有做用。文件每行包含一個username:passwd對。通常來講密碼最好不要超過8個字符。沒有默認的secures file名,須要限式指定一個(例如:/etc/rsyncd.passwd)。注意:該文件的權限必定要是600,不然客戶端將不能鏈接服務器。

strict modes

該選項指定是否監測密碼文件的權限,若是該選項值爲true那麼密碼文件只能被rsync服務器運行身份的用戶訪問,其餘任何用戶不能夠訪問該文件。默認值爲true。

hosts allow

該選項指定哪些IP的客戶容許鏈接該模塊。客戶模式定義能夠是如下形式:

單個IP地址,例如:192.167.0.1

整個網段,例如:192.168.0.0/24,也能夠是192.168.0.0/255.255.255.0

多個IP或網段須要用空格隔開,「*」則表示全部,默認是容許全部主機鏈接。

hosts deny

指定不容許鏈接rsync服務器的機器,可使用hosts allow的定義方式來進行定義。默認是沒有hosts deny定義。

ignore errors

指定rsyncd在判斷是否運行傳輸時的刪除操做時忽略server上的IO錯誤,通常來講rsync在出現IO錯誤時將將跳過--delete操做,以防止由於暫時的資源不足或其它IO錯誤致使的嚴重問題。

ignore nonreadable

指定rysnc服務器徹底忽略那些用戶沒有訪問權限的文件。這對於在須要備份的目錄中有些文件是不該該被備份者獲得的狀況是有意義的。

lock file

指定支持max connections參數的鎖文件,默認值是/var/run/rsyncd.lock。

transfer logging

使rsync服務器使用ftp格式的文件來記錄下載和上載操做在本身單獨的日誌中。

log format

經過該選項用戶在使用transfer logging能夠本身定製日誌文件的字段。其格式是一個包含格式定義符的字符串,可使用的格式定義符以下所示:

%h 遠程主機名

%a 遠程IP地址

%l 文件長度字符數

%p 該次rsync會話的進程id

%o 操做類型:" send" 或" recv"

%f 文件名

%P 模塊路徑

%m 模塊名

%t 當前時間

%u 認證的用戶名(匿名時是null)

%b 實際傳輸的字節數

%c 當發送文件時,該字段記錄該文件的校驗碼

默認log格式爲:" %o %h [%a] %m (%u) %f %l" ,通常來講,在每行的頭上會添加" %t [%p] " 。在源代碼中同時發佈有一個叫rsyncstats的perl腳本程序來統計這種格式的日誌文件。

timeout

經過該選項能夠覆蓋客戶指定的IP超時時間。經過該選項能夠確保rsync服務器不會永遠等待一個崩潰的客戶端。超時單位爲秒鐘,0表示沒有超時定義,這也是默認值。對於匿名rsync服務器來講,一個理想的數字是600。

refuse options

經過該選項能夠定義一些不容許客戶對該模塊使用的命令參數列表。這裏必須使用命令全名,而不能是簡稱。但發生拒絕某個命令的狀況時服務器將報告錯誤信息而後退出。若是要防止使用壓縮,應該是:" dont compress = *" 。

dont compress

用來指定那些不進行壓縮處理再傳輸的文件,默認值是*.gz *.tgz *.zip *.z *.rpm *.deb *.iso *.bz2 *.tbz

5、測試過程

環境介紹:一臺SUN Solaris9上有一個文件系統,存在1200萬個小文件,因爲服務器替換,須要將其遷移至一臺IBM AIX 6.1的服務器。

一、安裝rsync包

在solaris上,安裝rsync3.0.9,可能還須要安裝libiconv庫文件

在aix上安裝rsync3.0.9,安裝前須要先安裝popt-1.7

二、配置服務器端配置文件

vi /etc/rsyncd.conf

uid = nobody

gid = nobody

use chroot = no

max connections = 10

port = 873

[app]

path = /home/app

comment = this is a test

ignore errors

read only = yes

list = no

uid = 0

gid = 0

aut users = root

secrets file = /etc/rsync.pas

pid file = /var/run/rsyncd.pid

lock file = /var/run/rsync.lock

log file = /var/log/rsyncd.log

================================

建立密碼文件

vi /etc/rsync.pas

root:root

啓動服務進程

rsync --daemon

netstat -an|grep 873

在IBM aix服務器上運行以下命令:

rsync -zvrtopg --progress --delete --password-file=/etc/rsync.pas root@172.xx.xx.xx::app /home/app

其中,rsync.pas須要手工建立

vi /etc/rsync.pas

root

=======================================

測試過程當中的問題:

一、文件傳輸以目錄遞歸的方式傳輸,並不是以文件系統方式傳送

二、碰到傳送過程當中有文件傳送失敗,提示permission denied,須要在模塊裏面添加uid = 0 ,gid = 0。

三、部分文件傳輸的時候顯示skip,即沒有傳輸,檢查後發現是存在軟鏈接的現象,故加上參數-l。

參數說明

-v, --verbose  詳細模式輸出-q, --quiet 精簡輸出模式-c, --checksum 打開校驗開關,強制對文件傳輸進行校驗-a, --archive 歸檔模式,表示以遞歸方式傳輸文件,並保持全部文件屬性,等於-rlptgoD-r, --recursive 對子目錄以遞歸模式處理-R, --relative 使用相對路徑信息-b, --backup 建立備份,也就是對於目的已經存在有一樣的文件名時,將老的文件從新命名爲~filename。可使用--suffix選項來指定不一樣的備份文件前綴。--backup-dir 將備份文件(如~filename)存放在在目錄下。-suffix=SUFFIX 定義備份文件前綴-u, --update 僅僅進行更新,也就是跳過全部已經存在於DST,而且文件時間晚於要備份的文件。(不覆蓋更新的文件)-l, --links 保留軟鏈結-L, --copy-links 想對待常規文件同樣處理軟鏈結--copy-unsafe-links 僅僅拷貝指向SRC路徑目錄樹之外的鏈結--safe-links 忽略指向SRC路徑目錄樹之外的鏈結-H, --hard-links 保留硬鏈結     -p, --perms 保持文件權限-o, --owner 保持文件屬主信息     -g, --group 保持文件屬組信息-D, --devices 保持設備文件信息    -t, --times 保持文件時間信息-S, --sparse 對稀疏文件進行特殊處理以節省DST的空間-n, --dry-run現實哪些文件將被傳輸-W, --whole-file 拷貝文件,不進行增量檢測-x, --one-file-system 不要跨越文件系統邊界-B, --block-size=SIZE 檢驗算法使用的塊尺寸,默認是700字節-e, --rsh=COMMAND 指定使用rsh、ssh方式進行數據同步--rsync-path=PATH 指定遠程服務器上的rsync命令所在路徑信息-C, --cvs-exclude 使用和CVS同樣的方法自動忽略文件,用來排除那些不但願傳輸的文件--existing 僅僅更新那些已經存在於DST的文件,而不備份那些新建立的文件--delete 刪除那些DST中SRC沒有的文件--delete-excluded 一樣刪除接收端那些被該選項指定排除的文件--delete-after 傳輸結束之後再刪除--ignore-errors 及時出現IO錯誤也進行刪除--max-delete=NUM 最多刪除NUM個文件--partial 保留那些因故沒有徹底傳輸的文件,以是加快隨後的再次傳輸--force 強制刪除目錄,即便不爲空--numeric-ids 不將數字的用戶和組ID匹配爲用戶名和組名--timeout=TIME IP超時時間,單位爲秒-I, --ignore-times 不跳過那些有一樣的時間和長度的文件--size-only 當決定是否要備份文件時,僅僅察看文件大小而不考慮文件時間--modify-window=NUM 決定文件是否時間相同時使用的時間戳窗口,默認爲0-T --temp-dir=DIR 在DIR中建立臨時文件--compare-dest=DIR 一樣比較DIR中的文件來決定是否須要備份-P 等同於 --partial--progress 顯示備份過程-z, --compress 對備份的文件在傳輸時進行壓縮處理--exclude=PATTERN 指定排除不須要傳輸的文件模式--include=PATTERN 指定不排除而須要傳輸的文件模式--exclude-from=FILE 排除FILE中指定模式的文件--include-from=FILE 不排除FILE指定模式匹配的文件--version 打印版本信息--address 綁定到特定的地址--config=FILE 指定其餘的配置文件,不使用默認的rsyncd.conf文件--port=PORT 指定其餘的rsync服務端口--blocking-io 對遠程shell使用阻塞IO-stats 給出某些文件的傳輸狀態--progress 在傳輸時現實傳輸過程--log-format=formAT 指定日誌文件格式--password-file=FILE 從FILE中獲得密碼--bwlimit=KBPS 限制I/O帶寬,KBytes per second      -h, --help 顯示幫助信息

相關文章
相關標籤/搜索