真正的inotify+rsync實時同步 完全告別同步慢

咱們公司在用inotify+rsync作實時同步,來解決分佈式集羣文件一致性的問題。但當web文件愈來愈多(百萬級數量html,jpg等小 文件),同步就愈來愈慢,根本作不到實時,按照網上的調優方法都嘗試過,問題根本沒有解決。通過我一翻細緻研究,終於把慢的核心問題研究明白,先總結一句 inotifywait響應不會有延遲,rsync也很快。你們一樣有慢的煩惱,那是由於網上的inotify+rsync的教程都是坑。下面咱們來分 析。html

inotifywait 單獨分析

/usr/local/bin/inotifywait -mrq --format '%Xe %w%f' -e modify,create,delete,attrib /data/

執行上面命令,是讓inotifywait監聽/data/目錄,當監聽到有發生modify,create,delete,attrib等事件發生時,按%Xe %w%f的格式輸出。web

在/data/目錄touch幾個文件算法

touch /data/{1..5}

觀看inotify輸出shell

ATTRIB /data/1           -- 表示發生了ATTRIB事件 路徑爲/data/1
ATTRIB /data/2
ATTRIB /data/3
ATTRIB /data/4
ATTRIB /data/5

知道上面的輸出效果以後 咱們應該想獲得,能夠用rsync獲取inotifywait監控到的文件列表來作指定的文件同步,而不是每次都由rsync作全目錄掃描來判斷文件是否存在差別。bash

網上的inotify+rsync分析

咱們來看網上的教程,我加了註釋。(網上全部的教程基本都如出一轍,儘管寫法不同,致命點都是同樣的)服務器

#!/bin/bash 
/usr/bin/inotifywait -mrq --format '%w%f'-e create,close_write,delete /backup |while read file
#把發生更改的文件列表都接收到file 而後循環,但有什麼鬼用呢?下面的命令都沒有引用這個$file 下面作的是全量rsync
do 
    cd /backup && rsync -az --delete /backup/ rsync_backup@192.168.24.101::backup/--password-file=/etc/rsync.password 
done

#注意看 這裏的rsync 每次都是全量的同步(這就坑爹了),並且 file列表是循環形式觸發rsync ,等於有10個文件發生更改,就觸發10次rsync全量同步(簡直就是噩夢),那還不如直接寫個死循環的rsync全量同步得了。ssh

#有不少人會說 日誌輸出那裏明明只有差別文件的同步記錄。其實這是rsync的功能,他原本就只會輸出有差別須要同步的文件信息。不信你直接拿這句rsync來跑試試。異步

#這種在須要同步的源目錄文件量很大的狀況下,簡直是不堪重負。不只耗CPU還耗時,根本不能夠作到實時同步。分佈式

改良方法

要作到實時,就必需要減小rsync對目錄的遞歸掃描判斷,儘量的作到只同步inotify監控到已發生更改的文件。結合rsync的特性,因此這裏要分開判斷來實現一個目錄的增刪改查對應的操做。優化

腳本以下

#!/bin/bash
src=/data/                           # 須要同步的源路徑
des=data                             # 目標服務器上 rsync --daemon 發佈的名稱,rsync --daemon這裏就不作介紹了,網上搜一下,比較簡單。
rsync_passwd_file=/etc/rsyncd.passwd            # rsync驗證的密碼文件
ip1=192.168.0.18                 # 目標服務器1
ip2=192.168.0.19                 # 目標服務器2
user=root                            # rsync --daemon定義的驗證用戶名
cd ${src}                             
# 此方法中,因爲rsync同步的特性,這裏必需要先cd到源目錄,inotify再監聽 ./ 才能rsync同步後目錄結構一致,有興趣的同窗能夠進行各類嘗試觀看其效果
/usr/local/bin/inotifywait -mrq --format  '%Xe %w%f' -e modify,create,delete,attrib,close_write,move ./ | while read file
# 把監控到有發生更改的"文件路徑列表"循環
do
        INO_EVENT=$(echo $file | awk '{print $1}')      # 把inotify輸出切割 把事件類型部分賦值給INO_EVENT
        INO_FILE=$(echo $file | awk '{print $2}')       # 把inotify輸出切割 把文件路徑部分賦值給INO_FILE
        echo "-------------------------------$(date)------------------------------------"
        echo $file
        #增長、修改、寫入完成、移動進事件
        #增、改放在同一個判斷,由於他們都確定是針對文件的操做,即便是新建目錄,要同步的也只是一個空目錄,不會影響速度。
        if [[ $INO_EVENT =~ 'CREATE' ]] || [[ $INO_EVENT =~ 'MODIFY' ]] || [[ $INO_EVENT =~ 'CLOSE_WRITE' ]] || [[ $INO_EVENT =~ 'MOVED_TO' ]]         # 判斷事件類型
        then
                echo 'CREATE or MODIFY or CLOSE_WRITE or MOVED_TO'
                rsync -avzcR --password-file=${rsync_passwd_file} $(dirname ${INO_FILE}) ${user}@${ip1}::${des} &&
# INO_FILE變量表明路徑哦  -c校驗文件內容
                rsync -avzcR --password-file=${rsync_passwd_file} $(dirname ${INO_FILE}) ${user}@${ip2}::${des}
#仔細看 上面的rsync同步命令 源是用了$(dirname ${INO_FILE})變量 即每次只針對性的同步發生改變的文件的目錄(只同步目標文件的方法在生產環境的某些極端
#環境下會漏文件 如今能夠在不漏文件下也有不錯的速度 作到平衡)
#而後用-R參數把源的目錄結構遞歸到目標後面 保證目錄結構一致性
        fi
        #刪除、移動出事件
        if [[ $INO_EVENT =~ 'DELETE' ]] || [[ $INO_EVENT =~ 'MOVED_FROM' ]]
        then
                echo 'DELETE or MOVED_FROM'
                rsync -avzR --delete --password-file=${rsync_passwd_file} $(dirname ${INO_FILE}) ${user}@${ip1}::${des} &&
                rsync -avzR --delete --password-file=${rsync_passwd_file} $(dirname ${INO_FILE}) ${user}@${ip2}::${des}
#看rsync命令 若是直接同步已刪除的路徑${INO_FILE}會報no such or directory錯誤 因此這裏同步的源是被刪文件或目錄的上一級路徑
#並加上--delete來刪除目標上有而源中沒有的文件,這裏不能作到指定文件刪除,若是刪除的路徑越靠近根,則同步的目錄月多,同步刪除的操做就越花時間。
#這裏有更好方法的同窗,歡迎交流。
        fi
        #修改屬性事件 指 touch chgrp chmod chown等操做
        if [[ $INO_EVENT =~ 'ATTRIB' ]]
        then
                echo 'ATTRIB'
                if [ ! -d "$INO_FILE" ]
# 若是修改屬性的是目錄 則不一樣步,由於同步目錄會發生遞歸掃描,等此目錄下的文件發生同步時,rsync會順帶更新此目錄。
                then
                        rsync -avzcR --password-file=${rsync_passwd_file} $(dirname ${INO_FILE}) ${user}@${ip1}::${des} &&          
                        rsync -avzcR --password-file=${rsync_passwd_file} $(dirname ${INO_FILE}) ${user}@${ip2}::${des}
                fi
        fi
done

每兩小時作1次全量同步

由於inotify只在啓動時會監控目錄,他沒有啓動期間的文件發生更改,他是不知道的,因此這裏每2個小時作1次全量同步,防止各類意外遺漏,保證目錄一致。

crontab -e
* */2 * * * rsync -avz --password-file=/etc/rsync-client.pass /data/ root@192.168.0.18::data && rsync -avz --password-file=/etc/rsync-client.pass /data/ root@192.168.0.19::data

改良後咱們公司這種百萬級小文件也能作到實施同步了。

下面附上inotify的參數說明

inotify介紹-- 是一種強大的、細顆粒的、異步的文件系統監控機制,*&####&*_0_*&####&*內核從2.6.13起,加入Inotify能夠監控文件系統中添加、刪除、修改移動等各類事件,利用這個內核接口,就能夠監控文件系統下文件的各類變化狀況。

inotifywait 參數說明

參數名稱 參數說明
-m,–monitor 始終保持事件監聽狀態
-r,–recursive 遞歸查詢目錄
-q,–quiet 只打印監控事件的信息
–excludei 排除文件或目錄時,不區分大小寫
-t,–timeout 超時時間
–timefmt 指定時間輸出格式
–format 指定時間輸出格式
-e,–event 後面指定刪、增、改等事件

inotifywait events事件說明

事件名稱 事件說明
access 讀取文件或目錄內容
modify 修改文件或目錄內容
attrib 文件或目錄的屬性改變
close_write 修改真實文件內容
close_nowrite  
close  
open 文件或目錄被打開
moved_to 文件或目錄移動到
moved_from 文件或目錄從移動
move 移動文件或目錄移動到監視目錄
create 在監視目錄下建立文件或目錄
delete 刪除監視目錄下的文件或目錄
delete_self  
unmount 卸載文件系統

優化 Inotify

# 在/proc/sys/fs/inotify目錄下有三個文件,對inotify機制有必定的限制

[root@web ~]# ll /proc/sys/fs/inotify/
總用量0
-rw-r--r--1 root root 09月923:36 max_queued_events
-rw-r--r--1 root root 09月923:36 max_user_instances
-rw-r--r--1 root root 09月923:36 max_user_watches
-----------------------------
max_user_watches #設置inotifywait或inotifywatch命令能夠監視的文件數量(單進程)
max_user_instances #設置每一個用戶能夠運行的inotifywait或inotifywatch命令的進程數
max_queued_events #設置inotify實例事件(event)隊列可容納的事件數量
----------------------------
[root@web ~]# echo 50000000>/proc/sys/fs/inotify/max_user_watches -- 把他加入/etc/rc.local就能夠實現每次重啓都生效
[root@web ~]# echo 50000000>/proc/sys/fs/inotify/max_queued_events

附錄:

Rsync的命令格式能夠爲如下六種:

1 rsync [OPTION]... SRC DEST
2 rsync [OPTION]... SRC [USER@]HOST:DEST
3 rsync [OPTION]... [USER@]HOST:SRC DEST
4 rsync [OPTION]... [USER@]HOST::SRC DEST
5 rsync [OPTION]... SRC [USER@]HOST::DEST
6 rsync [OPTION]... rsync://[USER@]HOST[:PORT]/SRC [DEST]

對應於以上六種命令格式,rsync有六種不一樣的工做模式:

  1)拷貝本地文件。當SRC和DES路徑信息都不包含有單個冒號」:」分隔符時就啓動這種工做模式。如:rsync -a /data /backup

  2)使用一個遠程shell程序(如rsh、ssh)來實現將本地機器的內容拷貝到遠程機器。當DST路徑地址包含單個冒號」:」分隔符時啓動該模式。如:rsync -avz *.c foo:src

  3)使用一個遠程shell程序(如rsh、ssh)來實現將遠程機器的內容拷貝到本地機器。當SRC地址路徑包含單個冒號」:」分隔符時啓動該模式。如:rsync -avz foo:src/bar /data

  4)從遠程rsync服務器中拷貝文件到本地機。當SRC路徑信息包含」::」分隔符時啓動該模式。如:rsync -av root@172.16.78.192::www /databack

  5)從本地機器拷貝文件到遠程rsync服務器中。當DST路徑信息包含」::」分隔符時啓動該模式。如:rsync -av /databack root@172.16.78.192::www

  6)列遠程機的文件列表。這相似於rsync傳輸,不過只要在命令中省略掉本地機信息便可。如:rsync -v rsync://172.16.78.192/www

rsync參數的具體解釋以下:

-v, --verbose 詳細模式輸出
-q, --quiet 精簡輸出模式
-c, --checksum 打開校驗開關,強制對文件傳輸進行校驗
-a, --archive 歸檔模式,表示以遞歸方式傳輸文件,並保持全部文件屬性,等於-rlptgoD
-r, --recursive 對子目錄以遞歸模式處理
-R, --relative 使用相對路徑信息
-b, --backup 建立備份,也就是對於目的已經存在有一樣的文件名時,將老的文件從新命名爲~filename。可使用--suffix選項來指定不一樣的備份文件前綴。
--backup-dir 將備份文件(如~filename)存放在在目錄下。
-suffix=SUFFIX 定義備份文件前綴
-u, --update 僅僅進行更新,也就是跳過全部已經存在於DST,而且文件時間晚於要備份的文件。(不覆蓋更新的文件)
-l, --links 保留軟鏈結
-L, --copy-links 想對待常規文件同樣處理軟鏈結
--copy-unsafe-links 僅僅拷貝指向SRC路徑目錄樹之外的鏈結
--safe-links 忽略指向SRC路徑目錄樹之外的鏈結
-H, --hard-links 保留硬鏈結
-p, --perms 保持文件權限
-o, --owner 保持文件屬主信息
-g, --group 保持文件屬組信息
-D, --devices 保持設備文件信息
-t, --times 保持文件時間信息
-S, --sparse 對稀疏文件進行特殊處理以節省DST的空間
-n, --dry-run現實哪些文件將被傳輸
-W, --whole-file 拷貝文件,不進行增量檢測
-x, --one-file-system 不要跨越文件系統邊界
-B, --block-size=SIZE 檢驗算法使用的塊尺寸,默認是700字節
-e, --rsh=COMMAND 指定使用rsh、ssh方式進行數據同步
--rsync-path=PATH 指定遠程服務器上的rsync命令所在路徑信息
-C, --cvs-exclude 使用和CVS同樣的方法自動忽略文件,用來排除那些不但願傳輸的文件
--existing 僅僅更新那些已經存在於DST的文件,而不備份那些新建立的文件
--delete 刪除那些DST中SRC沒有的文件
--delete-excluded 一樣刪除接收端那些被該選項指定排除的文件
--delete-after 傳輸結束之後再刪除
--ignore-errors 及時出現IO錯誤也進行刪除
--max-delete=NUM 最多刪除NUM個文件
--partial 保留那些因故沒有徹底傳輸的文件,以是加快隨後的再次傳輸
--force 強制刪除目錄,即便不爲空
--numeric-ids 不將數字的用戶和組ID匹配爲用戶名和組名
--timeout=TIME IP超時時間,單位爲秒
-I, --ignore-times 不跳過那些有一樣的時間和長度的文件
--size-only 當決定是否要備份文件時,僅僅察看文件大小而不考慮文件時間
--modify-window=NUM 決定文件是否時間相同時使用的時間戳窗口,默認爲0
-T --temp-dir=DIR 在DIR中建立臨時文件
--compare-dest=DIR 一樣比較DIR中的文件來決定是否須要備份
-P 等同於 --partial
--progress 顯示備份過程
-z, --compress 對備份的文件在傳輸時進行壓縮處理
--exclude=PATTERN 指定排除不須要傳輸的文件模式
--include=PATTERN 指定不排除而須要傳輸的文件模式
--exclude-from=FILE 排除FILE中指定模式的文件
--include-from=FILE 不排除FILE指定模式匹配的文件
--version 打印版本信息
--address 綁定到特定的地址
--config=FILE 指定其餘的配置文件,不使用默認的rsyncd.conf文件
--port=PORT 指定其餘的rsync服務端口
--blocking-io 對遠程shell使用阻塞IO
-stats 給出某些文件的傳輸狀態
--progress 在傳輸時現實傳輸過程
--log-format=formAT 指定日誌文件格式
--password-file=FILE 從FILE中獲得密碼
--bwlimit=KBPS 限制I/O帶寬,KBytes per second
-h, --help 顯示幫助信息
相關文章
相關標籤/搜索