Linux系統——Keepalived高可用集羣

時間 2019-11-18

原文原文鏈接

#### keepalived服務的三個重要功能
1. 管理LVS負載均衡軟件
Keepalived能夠經過讀取自身的配置文件，實現經過更底層的接口直接管理LVS的配置以及控制服務的啓動，中止功能，這使得LVS的應用更加簡單方便。
2. 實現對LVS集羣節點健康檢查功能（healthcheck）
Keepalived能夠經過在自身的Keepalived.conf文件裏配置LVS的節點IP和相關參數實現對LVS的直接管理；除此以外，當LVS集羣中的某一個甚至是幾個節點服務器同時發生故障沒法提供服務時，Keepalived服務會自動將失效的節點服務器從LVS的正常轉發隊列中清除出去，並將請求調度到別的正常節點服務器上，從而保證最終用戶的訪問不受影響；當故障的節點服務器被修復之後，Keepalived服務又會自動地把它們加入到正常轉發隊列中，對客戶提供服務。
3. 做爲系統網絡服務的高可用功能（failover）
（1）Keepalived能夠實現任意兩臺主機之間，例如Master和Backup主機之間的故障轉移和自動切換，這個主機能夠是普通的不能停機的業務服務器，也能夠是LVS負載均衡，Nginx反向代理這樣的服務器。
（2）Keepalived高可用功能實現的簡單原理爲，兩臺主機同時安裝好Keepalived軟件並啓動服務，開始正常工做時，由角色爲Master的主機得到全部資源並對用戶提供服務，角色爲Backup的主機做爲Master主機的熱備；當角色爲Master的主機失效或出現故障時，角色爲Backup的主機將自動接管Master主機的全部工做，包括接管VIP資源及相應資源服務；而當角色爲Master的主機故障修復後，又會自動接管回它原來處理的工做，角色爲Backup的主機則同時釋放Master主機失效時它接管的工做，此時，兩臺主機將恢復到最初啓動時各自的原始角色及工做狀態。
#### Keepalived高可用故障切換轉移原理
Keepalived高可用服務之間的故障切換轉移，是經過VRRP（Virtual Router Redundancy Protocol，虛擬路由器冗餘協議）來實現的。
在Keepalived服務正常工做時，主Master節點會不斷地向備節點發送（多播的方式）心跳消息，用以告訴備Backup節點本身還活着，當主Master節點發生故障時，就沒法發送心跳消息，備節點也就所以沒法繼續檢測到來自主Master節點的心跳了，因而調用自身的接管程序，接管主Master節點的IP資源及服務。而當主Master節點恢復時，備Backup節點又會釋放主節點故障時自身接管的IP資源及服務，恢復到原來的備用角色。
那麼，什麼是VRRP呢？
VRRP，全稱Virtual Router Redundancy Protocol，中文名爲虛擬路由冗餘協議，VRRP的出現就是爲了解決靜態路由的單點故障問題，VRRP是經過一種競選機制來將路由的任務交給某臺VRRP路由器的。
VRRP早期是用來解決交換機，路由器等設備單點故障的，下面是交換，路由的Master和Backup切換原理描述，一樣適用於Keepalived的工做原理。
在一組VRRP路由器集羣中，有多臺物理VRRP路由器，可是這多臺物理的機器並非同時工做的，而是由一臺稱爲Master的機器負責路由工做，其餘的機器都是Backup。Master角色並不是一成不變的，VRRP會讓每一個VRRP路由參與競選，最終獲勝的就是Master。獲勝的Master有一些特權，好比擁有虛擬路由器的IP地址等，擁有系統資源的Master負責轉發發送給網關地址的包和響應ARP請求。
VRRP經過競選機制來實現虛擬路由器的功能，全部的協議報文都是經過IP多播（Multicast）包（默認的多播地址224.0.0.18）形式發送的。虛擬路由器由VRID（範圍0-225）和一組IP地址組成，對外表現爲一個周知的MAC地址：00-00-5E-00-01-{VRID}。因此，在一個虛擬路由器中，無論誰是Master，對外都是相同的MAC和IP（稱之爲VIP）。客戶端主機並不須要因Master的改變而修改本身的路由配置。對他們來講，這種切換是透明的。
在一組虛擬路由器中，只有做爲Master的VRRP路由器會一直髮送VRRP廣播包（VRRP Advertisement messages），此時Backup不會搶佔Master。當Master不可用時，Backup就收不到來自Master的廣播包了，此時多臺Backup中優先級最高的路由器會搶佔爲Master。這種搶佔是很是快速的（可能只有1秒甚至更少），以保證服務的連續性。出於安全性考慮，VRRP數據包使用了加密協議進行了加密。
Keepalived高可用之間是經過VRRP通訊的，所以，我從VRRP開始給您講起：前端

VRRP也就是虛擬路由冗餘協議，它的出現就是爲了解決靜態路由的單點故障。
VRRP是經過一種競選協議機制來將路由任務交給某臺VRRP路由器的。
VRRP用IP多播的方式（默認多播地址（224.0.0.18））實現高可用之間通訊。
工做時主節點發包，備節點接包，當備節點接收不到主節點發的數據包的時候，就啓動接管程序接管主節點的資源。備節點能夠有多個，經過優先級競選，但通常Keepalived系統運維工做中都是一對。
VRRP使用了加密協議加密數據，但Keepalived官方目前仍是推薦用明文的方式配置認證類型和密碼。
介紹完了VRRP，接下來我再介紹一下Keepalived服務的工做原理：ios

Keepalived高可用之間是經過VRRP進行通訊的，VRRP是經過競選機制來肯定主備的，主的優先級高於備，所以，工做時主會優先得到全部的資源，備節點處於等待狀態，當主掛了的時候，備節點就會接管主節點的資源，而後頂替主節點對外提供服務。
在Keepalived服務之間，只有做爲主的服務器會一直髮送VRRP廣播包，告訴備它還活着，此時備不會搶佔主，當主不可用時，即備監聽不到主發送的廣播包時，就會啓動相關服務接管資源，保證業務的連續性。接管速度最快能夠小於1秒。
#### Keepalived高可用服務搭建準備
環境部署
nginx_master 192.168.239.129 keepalived主服務器（主負載均衡）
nginx_slave 192.168.239.128 keepalived備服務器（備負載均衡）
web01 192.168.239.130 web01服務器
web02 192.168.239.131 web02服務器nginx

在兩臺負載均衡服務器上先添加一塊網卡eth1（僅主機NAT1模式）web

```數據庫

[root@www ~]# ip link
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 16436 qdisc noqueue state UNKNOWN
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
2: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP qlen 1000
link/ether 00:0c:29:f9:ab:90 brd ff:ff:ff:ff:ff:ff
3: eth1: <BROADCAST,MULTICAST> mtu 1500 qdisc noop state DOWN qlen 1000
link/ether 00:0c:29:f9:ab:9a brd ff:ff:ff:ff:ff:ff
[root@www ~]# cd /etc/sysconfig/network-scripts/
[root@www network-scripts]# ls
ifcfg-eth0 ifdown-post ifup-eth ifup-routes
ifcfg-lo ifdown-ppp ifup-ippp ifup-sit
ifdown ifdown-routes ifup-ipv6 ifup-tunnel
ifdown-bnep ifdown-sit ifup-isdn ifup-wireless
ifdown-eth ifdown-tunnel ifup-plip init.ipv6-global
ifdown-ippp ifup ifup-plusb net.hotplug
ifdown-ipv6 ifup-aliases ifup-post network-functions
ifdown-isdn ifup-bnep ifup-ppp network-functions-ipv6
[root@www network-scripts]# cp ifcfg-eth0 ifcfg-eth1
[root@www network-scripts]# vim ifcfg-eth1
DEVICE=eth1
TYPE=Ethernet
ONBOOT=yes
NM_CONTROLLED=yes
BOOTPROTO=dhcp
[root@www network-scripts]# ifup eth1vim

Determining IP information for eth1... done.
#兩臺nginx服務器都啓動網卡eth1後進行測試
[root@www network-scripts]# ping 192.168.239.128
PING 192.168.239.128 (192.168.239.128) 56(84) bytes of data.
64 bytes from 192.168.239.128: icmp_seq=1 ttl=64 time=0.459 ms
64 bytes from 192.168.239.128: icmp_seq=2 ttl=64 time=0.483 ms
64 bytes from 192.168.239.128: icmp_seq=3 ttl=64 time=0.206 ms
```安全

1. 安裝keepalived軟件
在nginx_master和nginx_slave服務器上同時安裝
```
[root@www ~]# mount /dev/sr0 /media/cdrom
mount: block device /dev/sr0 is write-protected, mounting read-only
[root@www ~]# yum -y install keepalivedbash

```
2. 啓動keepalived服務並檢查服務器

```
[root@www ~]# /etc/init.d/keepalived start
Starting keepalived: [ OK ]
[root@www ~]# ps -ef | grep keep | grep -v grep
root 1381 1 0 21:46 ? 00:00:00 /usr/sbin/keepalived -D
root 1383 1381 0 21:46 ? 00:00:00 /usr/sbin/keepalived -D
root 1384 1381 0 21:46 ? 00:00:00 /usr/sbin/keepalived -D
[root@www ~]# ip add | grep 192.168
inet 192.168.239.129/24 brd 192.168.239.255 scope global eth0
inet 192.168.200.16/32 scope global eth0
inet 192.168.200.17/32 scope global eth0
inet 192.168.200.18/32 scope global eth0
[root@www ~]# /etc/init.d/keepalived stop
Stopping keepalived: [ OK ]網絡

```
3. Keepalived配置文件說明

```
[root@www ~]# ls -l /etc/keepalived/keepalived.conf
-rw-r--r--. 1 root root 3562 Mar 19 2015 /etc/keepalived/keepalived.conf

```
這裏的具有高可用功能的Keepalived.conf配置文件包含了兩個重要區塊，下面會分別說明

（1）全局定義（Global Definitions）部分

這部分主要用來設置Keepalived的故障通知機制和Router ID標識。示例代碼以下：

```
[root@www ~]# head -13 /etc/keepalived/keepalived.conf | cat -n
1 ! Configuration File for keepalived
2
3 global_defs {
4 notification_email {
5 acassen@firewall.loc #郵箱
6 failover@firewall.loc
7 sysadmin@firewall.loc
8 }
9 notification_email_from Alexandre.Cassen@firewall.loc #發件人郵箱地址
10 smtp_server 192.168.239.1 #郵件服務器的IP地址
11 smtp_connect_timeout 30
12 router_id LVS_DEVEL #真實路由地址，要求主備的路由地址不能同樣
13 }
#基礎參數說明：

第1行是註釋，！開頭和#號開發同樣，都是註釋。
第2行是空行。
第3~8行是定義服務故障報警的Email地址。做用是當服務發生切換或RS節點等有故障時，發報警郵件。這幾行是可選配置，notification_email指定在Keepalived發生事件時，須要發送的Email地址，能夠有多個，每行一個。
第9行是指定發送郵件的發送人，即發件人地址，也是可選的配置。
第10行smtp_server指定發送郵件的smtp服務器，若是本機開啓了sendmail或postfix，就可使用上面默認配置實現郵件發送，也是可選配置。
第11行smtp_connect_timeout是鏈接smtp的超時時間，也是可選配置。
第4~11行全部和郵件報警相關的參數都可以不配，在實際工做中會將監控的任務交給更加擅長監控報警的Nagios或Zabbix軟件。
第12行是Keepalived服務器的路由標識（router_id）.在一個局域網內，這個標識（router_id）應該是惟一的。
大括號「{}」。用來分隔區塊，要成對出現。若是漏寫了半個大括號，Keepalived運行時，不會報錯，但也不會獲得預期的結果。另外，因爲區塊間存在多層嵌套關係，所以很容易遺漏區塊結尾處的大括號，要特別注意。
```
（2）VRRP實例定義區塊（VRRP instance（s））部分

```
[root@www ~]# sed -n '15,30{=;p}' /etc/keepalived/keepalived.conf | xargs -L2
15 vrrp_instance VI_1 { #VI_1爲虛擬實例的名字(主備一致)
16 state MASTER #當前配置文件是主，備用爲backup
17 interface eth1 #廣播包從哪一個網卡接口發出
18 virtual_router_id 51 #虛擬路由id，主備一致
19 priority 100 #主優先級高（150），備優先級低（100）
20 advert_int 1 #每隔一秒發送一次心跳包
21 authentication { #權限：帳號及密碼
22 auth_type PASS
23 auth_pass 1111
24 }
25 virtual_ipaddress { #虛擬IP地址（VIP）
26 192.168.239.128
27 192.168.239.127
28 192.168.239.133
29 }
30 }
#參數說明：

第15行表示定義一個vrrp_instance實例，名字是VI_1,每一個vrrp_instance實例能夠認爲是Keepalived服務的一個實例或者做爲一個業務服務，在Keepalived服務配置中，這樣的vrrp_instance實例能夠有多個。注意，存在於主節點中的vrrp_instance實例在備節點中也要存在，這樣才能實現故障切換接管。

第16行state MASTER表示當前實例VI_1的角色狀態，當前角色爲MASTER，這個狀態只能有MASTER和BACKUP兩種狀態，而且須要大寫這些字符。其中MASTER爲正式工做的狀態，BACKUP爲備用的狀態。當MASTER所在的服務器故障或失效時，BACKUP所在的服務器會接管故障的MASTER繼續提供服務。

第17行interface爲網絡通訊接口。爲對外提供服務的網絡接口，如eth0,eth1。當前主流的服務器都有2~4個網絡接口，在選擇服務接口時，要搞清楚了。

第18行virtual_router_id爲虛擬路由ID標識，這個標識最好是一個數字，而且要在一個keepalived.conf配置中是惟一的。可是MASTER和BACKUP配置中相同實例的virtual_router_id又必須是一致的，不然將出現腦裂問題。

第19行priority爲優先級，其後面的數值也是一個數字，數字越大，表示實例優先級越高。在同一個vrrp_instance實例裏，MASTER的優先級配置要高於BACKUP的。若MASTER的priority值爲150，那麼BACKUP的priority必須小於150，通常建議間隔50以上爲佳，例如：設置BACKUP的priority爲100或更小的數值。

第20行advert_int爲同步通知間隔。MASTER與BACKUP之間通訊檢查的時間間隔，單位爲秒，默認爲1.

第21~24行authentication爲權限認證配置。包含認證類型（auth_type）和認證密碼（auth_pass）。認證類型有PASS（Simple Passwd（suggested）），AH（IPSEC（not recommended））兩種，官方推薦使用的類型爲PASS。驗證密碼爲明文方式，最好長度不要超過8個字符，建議用4位數字，同一vrrp實例的MASTER與BACKUP使用相同的密碼才能正常通訊。

第25 ~ 29 行virtual_ipaddress爲虛擬IP地址。能夠配置多個IP地址，每一個地址佔一行，配置時最好明確指定子網掩碼以及虛擬IP綁定的網絡接口。不然，子網掩碼默認是32位，綁定的接口和前面的interface參數配置的一致。注意，這裏的虛擬IP就是在工做中須要和域名綁定的IP，即和配置的高可用服務監聽的IP要保持一致！
```
#### Keepalived高可用服務單實例實戰
1. 配置Keepalived實現單實例單IP自動漂移接管
（1）事實上，網絡服務的高可用功能基本原理都很簡單，就是把手動的操做自動化運行而已。當沒有配置高可用服務時，若是服務器宕機了怎麼解決呢？無非就是找一個新服務器，配好域名解析的那個原IP，而後搭好相應的網絡服務罷了，只不過手工去實現這個過程會比較漫長，相比而言，自動化切換效率更高，效果更好，並且還能夠有更多的功能，例如：發送ARP廣播，觸發執行相關腳本動做等。
（2）實際上也能夠將高可用對的兩臺機器應用服務同時開啓，可是隻讓有VIP一端的服務器提供服務，若主的服務器宕機，VIP會自動漂移到備用服務器上，此時用戶的請求直接發送到備用服務器上，而無需臨時啓動對應服務（事先開啓應用服務）。
##### 實戰配置Keepalived主服務器lb01 MASTER
首先，配置lb01 MASTER的keepalived.conf配置文件，操做步驟以下：

```
[root@www network-scripts]# cd /etc/keepalived/
[root@www keepalived]# vim keepalived.conf
#刪掉已有的全部默認配置，加入通過修改好的以下配置：
! Configuration File for keepalived

global_defs {
notification_email {
2914632996@qq.com #郵箱隨便寫
}
notification_email_from Alexandre.Cassen@firewall.loc
smtp_server 127.0.0.1 #郵件服務器IP
smtp_connect_timeout 30
router_id lb01 #id爲lb1，不能和其餘Keepalived節點相同（全局惟一）
}

vrrp_instance VI_1 { #實例名字爲VI_1,相同實例的備節點名字要和這個相同
state MASTER #狀態爲MASTER，備節點狀態須要爲BACKUP
interface eth1 #通訊（心跳）接口爲eth1，此參數備節點設置和主節點相同
virtual_router_id 51 #實例ID爲51，要和備節點相同
priority 150 #優先級爲150，備節點的優先級必須比此數字低
advert_int 1 #通訊檢查間隔時間1秒
authentication {
auth_type PASS #PASS認證類型，此參數備節點設置和主節點相同
auth_pass 1111 #密碼1111，此參數備節點設置和主節點相同
}
virtual_ipaddress {
192.168.239.120/24 dev eth0 label eth0:1 #虛擬IP，即VIP爲192.168.239.120,子網掩碼爲24位，綁定接口爲eth0，別名爲eth0：1，此參數備節點設置和主節點相同
}
}
# 主備nginx服務器keepalived配置文件相反
[root@www keepalived]# /etc/init.d/keepalived start
Starting keepalived: [ OK ]
[root@www keepalived]# ifconfig
eth0 Link encap:Ethernet HWaddr 00:0C:29:F9:AB:90
inet addr:192.168.239.129 Bcast:192.168.239.255 Mask:255.255.255.0
inet6 addr: fe80::20c:29ff:fef9:ab90/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
RX packets:1578 errors:0 dropped:0 overruns:0 frame:0
TX packets:1067 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:137179 (133.9 KiB) TX bytes:135999 (132.8 KiB)

eth0:1 Link encap:Ethernet HWaddr 00:0C:29:F9:AB:90
inet addr:192.168.239.120 Bcast:0.0.0.0 Mask:255.255.255.0
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1

eth1 Link encap:Ethernet HWaddr 00:0C:29:F9:AB:9A
inet addr:192.168.159.128 Bcast:192.168.159.255 Mask:255.255.255.0
inet6 addr: fe80::20c:29ff:fef9:ab9a/64 Scope:Link

查看是否有虛擬IP 192.168.239.0

```
備用服務器配置文件

```
[root@localhost network-scripts]# vim /etc/keepalived/keepalived.conf
! Configuration File for keepalived

global_defs {
notification_email {
2914632996@qq.com
}
notification_email_fromAlexandre.Cassen@firewall.loc
smtp_server 127.0.0.1 #郵件服務器IP
smtp_connect_timeout 30
router_id lb02 #id爲lb2，不能和其餘Keepalived節點相同（全局惟一）
}

vrrp_instance VI_1 { #實例名字爲VI_1,相同實例的備節點名字要和這個相同
state SLAVE #狀態爲SLAVE
interface eth1 #通訊（心跳）接口爲eth1，此參數備節點設置和主節點相同
virtual_router_id 51 #實例ID爲51，要和備節點相同
priority 100 #優先級爲100，備節點的優先級必須比此數字低
advert_int 1 #通訊檢查間隔時間1秒
authentication {
auth_type PASS #PASS認證類型，此參數備節點設置和主節點相同
auth_pass 1111 #密碼1111，此參數備節點設置和主節點相同
}
virtual_ipaddress {
192.168.239.120/24 dev eth0 label eth0:1

}
[root@localhost network-scripts]# /etc/init.d/keepalived start
Starting keepalived: [ OK ]
[root@localhost network-scripts]# ifconfig
eth0 Link encap:Ethernet HWaddr 00:0C:29:6A:E0:E0
inet addr:192.168.239.128 Bcast:192.168.239.255 Mask:255.255.255.0
inet6 addr: fe80::20c:29ff:fe6a:e0e0/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
RX packets:1472 errors:0 dropped:0 overruns:0 frame:0
TX packets:979 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:130254 (127.2 KiB) TX bytes:128791 (125.7 KiB)

eth1 Link encap:Ethernet HWaddr 00:0C:29:6A:E0:EA
inet addr:192.168.159.129 Bcast:192.168.159.255 Mask:255.255.255.0
inet6 addr: fe80::20c:29ff:fe6a:e0ea/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
#這裏沒有eth0:1，由於lb02爲BACKUP，當主節點活着的時候，它不會接管VIP 192.168.0.240
```
#### Keepalived高可用服務器的「裂腦」問題
1. 什麼是裂腦

因爲某些緣由，致使兩臺高可用服務器對在指定時間內，沒法檢測到對方的心跳消息，各自取得資源及服務的全部權，而此時的兩臺高可用服務器對都還活着並在正常運行，這樣就會致使同一個IP或服務在兩端同時存在而發生衝突，最嚴重的是兩臺主機佔用同一個VIP地址，當用戶寫入數據時可能會分別寫入到兩端，這可能會致使服務器兩端的數據不一致或形成數據丟失，這種狀況就被稱爲裂腦。
2. 致使裂腦發生的緣由

通常來講，裂腦的發生，有如下幾種緣由：

高可用服務器對之間心跳線鏈路發生故障，致使沒法正常通訊。
心跳線壞了（包括斷了,老化）
網卡及相關驅動壞了，IP配置及衝突問題（網卡直連）。
心跳線間鏈接的設備故障（網卡及交換機）
仲裁的機器出問題（採用仲裁的方案）
高可用服務器上開啓了iptables防火牆阻擋了心跳消息傳輸
高可用服務器上心跳網卡地址等信息配置不正確，致使發送心跳失敗。
其餘服務配置不當等緣由，如心跳方式不一樣，心跳廣播衝突，軟件BUG等。
Keepalived配置裏同一VRRP實例若是virtual_router_id兩端參數配置不一致，也會致使裂腦問題發生。
3. 解決裂腦的常見方案

在實際生產環境中，咱們能夠從如下幾個方面來防止裂腦問題的發生：

同時使用串行電纜和以太網電纜鏈接，同時用兩條心跳線路，這樣一條線路壞了，另外一個仍是好的，依然能傳送心跳消息。
當檢測到裂腦時強行關閉一個心跳節點（這個功能需特殊設備支持，如Stonith，fence）。至關於備節點接收不到心跳消息，經過單獨的線路發送關機命令關閉主節點的電源。
作好對裂腦的監控報警（如郵件及手機短信等或值班），在問題發生時人爲第一時間介入仲裁，下降損失。例如，百度的監控報警短信就有上行和下行的區別。報警信息發送到管理員手機上，管理員能夠經過手機回覆對應數字或簡單的字符串操做返回給服務器，讓服務器根據指令自動處理相應故障，這樣解決故障的時間更短。
固然，在實施高可用方案時，要根據業務實際需求肯定是否能容忍這樣的損失。對於通常的網站常規業務，這個損失是可容忍的。
4. 解決Keepalived裂腦的常見方案

做爲互聯網應用服務器的高可用，特別是前端Web負載均衡器的高可用，裂腦的問題對普通業務的影響是能夠忍受的，若是是數據庫或者存儲的業務，通常出現裂腦問題就很是嚴重了。所以，能夠經過增長冗餘心跳線路來避免裂腦問題的發生，同時增強對系統的監控，以便裂腦發生時人爲快速介入解決問題。

若是開啓防火牆，必定要讓心跳消息經過，通常經過容許IP段的形式解決。
能夠拉一條以太網網線或者串口線做爲主被節點心跳線路的冗餘。
開發檢測程序經過監控軟件（例如Nagios）檢測裂腦。
下面是生產場景檢測裂腦故障的一些思路：

1)簡單判斷的思想：只要備節點出現VIP就報警，這個報警有兩種狀況，一是主機宕機了備機接管了；二是主機沒宕，裂腦了。無論屬於哪一個狀況，都進行報警，而後由人工查看判斷及解決。

2）比較嚴謹的判斷：備節點出現對應VIP，而且主節點及對應服務（若是能遠程鏈接主節點看是否有VIP就更好了）還活着，就說明發生裂腦了。
#### Keepalived雙實例雙主模式配置
多實例多業務雙向主備模式，即A業務在lb01上是主模式，在lb02上是備模式，而B業務在lb01上是備模式，在lb02上是主模式
(1)主nginx的keepalived配置文件
```
[root@www keepalived]# vim keepalived.conf
! Configuration File for keepalived

}
vrrp_instance VI_2 {
state SLAVE
interface eth1
virtual_router_id 56
priority 100
advert_int 1
authentication {
auth_type PASS
auth_pass 1111
}
virtual_ipaddress {
192.168.239.140/24 dev eth0 label eth0:2
}
}
[root@www keepalived]# vim keepalived.conf
[root@www keepalived]# /etc/init.d/keepalived restart
Stopping keepalived: [ OK ]
Starting keepalived: [ OK ]
[root@www keepalived]# ifconfig
eth0 Link encap:Ethernet HWaddr 00:0C:29:F9:AB:90
inet addr:192.168.239.129 Bcast:192.168.239.255 Mask:255.255.255.0
inet6 addr: fe80::20c:29ff:fef9:ab90/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
RX packets:2526 errors:0 dropped:0 overruns:0 frame:0
TX packets:1728 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:224168 (218.9 KiB) TX bytes:223958 (218.7 KiB)

eth0:1 Link encap:Ethernet HWaddr 00:0C:29:F9:AB:90
inet addr:192.168.239.120 Bcast:0.0.0.0 Mask:255.255.255.0
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1

eth0:2 Link encap:Ethernet HWaddr 00:0C:29:F9:AB:90
inet addr:192.168.239.140 Bcast:0.0.0.0 Mask:255.255.255.0
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1

eth1 Link encap:Ethernet HWaddr 00:0C:29:F9:AB:9A
inet addr:192.168.159.128 Bcast:192.168.159.255 Mask:255.255.255.0

```
（2）備nginx的keepalived配置文件

```
[root@localhost network-scripts]# vim /etc/keepalived/keepalived.conf
! Configuration File for keepalived

}
vrrp_instance VI_2 { #實例名字爲VI_1,相同實例的備節點名字要和這個相同
state MASTER #狀態爲SLAVE
interface eth1 #通訊（心跳）接口爲eth1，此參數備節點設置和主節點相同
virtual_router_id 56 #實例ID爲56，要和備節點相同
priority 150 #優先級爲100，備節點的優先級必須比此數字低
advert_int 1 #通訊檢查間隔時間1秒
authentication {
auth_type PASS #PASS認證類型，此參數備節點設置和主節點相同
auth_pass 1111 #密碼1111，此參數備節點設置和主節點相同
}
virtual_ipaddress {
192.168.239.140/24 dev eth0 label eth0:2

}
[root@localhost network-scripts]# /etc/init.d/keepalived restart
Stopping keepalived: [ OK ]
Starting keepalived: [ OK ]
[root@localhost network-scripts]# ifconfig
eth0 Link encap:Ethernet HWaddr 00:0C:29:6A:E0:E0
inet addr:192.168.239.128 Bcast:192.168.239.255 Mask:255.255.255.0
inet6 addr: fe80::20c:29ff:fe6a:e0e0/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
RX packets:2335 errors:0 dropped:0 overruns:0 frame:0
TX packets:1582 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:207675 (202.8 KiB) TX bytes:209531 (204.6 KiB)

eth0:1 Link encap:Ethernet HWaddr 00:0C:29:6A:E0:E0
inet addr:192.168.239.120 Bcast:0.0.0.0 Mask:255.255.255.0
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1

eth0:2 Link encap:Ethernet HWaddr 00:0C:29:6A:E0:E0
inet addr:192.168.239.140 Bcast:0.0.0.0 Mask:255.255.255.0
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1

eth1 Link encap:Ethernet HWaddr 00:0C:29:6A:E0:EA
inet addr:192.168.159.129 Bcast:192.168.159.255 Mask:255.255.255.0

```
==抓取數據包命令==

```
[root@www ~]# tcpdump -n -i eth1 vrrp # -i 指定抓取的網卡 -n禁止反向解析，加快監聽速度

```
#### 解決高可用服務只針對物理服務器的問題
默認狀況下Keepalived軟件僅僅在對方機器宕機或Keepalived停掉的時候纔會接管業務。但在實際工做中，有業務服務中止而Keepalived服務還在工做的狀況，這就會致使用戶訪問的VIP沒法找到對應的服務，那麼，如何解決業務服務宕機能夠將IP漂移到備節點使之接管提供服務呢？
第一個方法：能夠寫守護進程腳原本處理。當Nginx業務有問題時，就停掉本地的Keepalived服務，實現IP漂移到對端繼續提供服務。實際工做中部署及開發的示例腳本以下：
在nginx_master上操做

```
[root@lb01 scripts]# cat check_nginx.sh
#!/bin/sh

while true
do
if [ `netstat -antup | grep nginx | wc -l` -ne 1 ];then
/etc/init.d/keepalived stop
fi
sleep 5 #每5秒檢測一次
done

#此腳本的基本思想是若沒有80端口存在，就停掉Keepalived服務實現釋放本地的VIP。在後臺執行上述腳本並檢查：
[root@lb01 scripts]# sh check_nginx.sh &
[1] 1521
[root@lb01 scripts]# ps -ef | grep check | grep -v grep
root 1521 1195 0 10:49 pts/0 00:00:00 sh check_nginx.sh

#確認Nginx以及Keepalived服務是正常的
[root@lb01 scripts]# netstat -antup | grep nginx
tcp 0 0 0.0.0.0:80 0.0.0.0:* LISTEN 1492/nginx
[root@lb01 scripts]# /etc/init.d/keepalived status
keepalived (pid 1512) is running...

#而後模擬Nginx服務掛掉，看IP是否發生切換。
[root@lb01 scripts]# /usr/local/nginx/sbin/nginx -s stop
[root@lb01 scripts]# Stopping keepalived: [ OK ]
[root@lb01 scripts]# /etc/init.d/keepalived status
keepalived is stopped
[root@lb01 scripts]# netstat -antup | grep nginx

#此時，備節點已接管：
[root@lb02 ~]# ip a | grep 192.168.0.240
inet 192.168.0.240/24 scope global secondary eth0:1
```
第二個方法：可使用Keepalived的配置文件參數觸發寫好的監測服務腳本。首先要開發檢測服務腳本，注意這個腳本與上一個腳本的不一樣。

```
[root@lb01 scripts]# cat chk_nginx_proxy.sh
#!/bin/bash

if [ `netstat -antup | grep nginx | wc -l` -ne 1 ];then
/etc/init.d/keepalived stop
fi

[root@lb01 scripts]# chmod +x chk_nginx_proxy.sh
[root@lb01 scripts]# ls -l chk_nginx_proxy.sh
-rwxr-xr-x. 1 root root 102 Jul 31 10:59 chk_nginx_proxy.sh
```
此時，Keepalived服務的完整配置爲：

```
[root@lb01 scripts]# cat /etc/keepalived/keepalived.conf
! Configuration File for keepalived

global_defs {
notification_email {
215379068@qq.com
}
notification_email_from Alexandre.Cassen@firewall.loc
smtp_server 127.0.0.1
smtp_connect_timeout 30
router_id lb01
}

vrrp_script chk_nginx_proxy { #定義vrrp腳本，檢測HTTP端口

script "/server/scripts/chk_nginx_proxy.sh" #執行腳本，當Nginx服務有問題，就停掉Keepalived服務
interval 2 #間隔2秒
weight 2

}

vrrp_instance VI_1 {
state MASTER
interface eth1
virtual_router_id 55
priority 150
advert_int 1
authentication {
auth_type PASS
auth_pass 1111
}
virtual_ipaddress {
192.168.0.240/24 dev eth0 label eth0:1
}

track_script {

chk_nginx_proxy #觸發檢查

}
}
```
下面測試接管結果

```
#先殺掉以前的後臺進程腳本的運行，以後進行以下操做
[root@lb01 scripts]# /usr/local/nginx/sbin/nginx
[root@lb01 scripts]# netstat -antup | grep nginx
tcp 0 0 0.0.0.0:80 0.0.0.0:* LISTEN 3937/nginx
[root@lb01 scripts]# /etc/init.d/keepalived start
Starting keepalived: [ OK ]
[root@lb01 scripts]# /etc/init.d/keepalived status
keepalived (pid 3949) is running...
[root@lb01 scripts]# ip a | grep 192.168.0.240
inet 192.168.0.240/24 scope global secondary eth0:1
[root@lb01 scripts]# /usr/local/nginx/sbin/nginx -s stop
[root@lb01 scripts]# ip a | grep 192.168.0.240
[root@lb01 scripts]# /etc/init.d/keepalived status
keepalived is stopped

#當停掉Nginx的時候，Keepalived 2秒鐘內會被自動停掉，VIP被釋放，由對端接管，這樣就實現了即便服務宕機也會進行IP漂移，業務切換。
```
#### 解決多組Keepalived服務器在一個局域網的衝突問題
當在同一個局域網內部署了多組Keepalived服務器對，而又未使用專門的心跳線通訊時，可能會發生高可用接管的嚴重故障問題。以前已經講解過Keepalived高可用功能是經過VRRP協議實現的，VRRP協議默認經過IP多播的形式實現高可用對之間的通訊，若是同一個局域網內存在多組Keepalived服務器對，就會形成IP多播地址衝突問題，致使接管錯亂，不一樣組的Keepalived都會使用默認的224.0.0.18做爲多播地址。此時的解決辦法是，在同組的Keepalived服務器全部的配置文件裏指定獨一無二的多播地址，配置以下：

```
global_defs {

router_id LVS_19
vrrp_mcast_group4 224.0.0.19 #這個就是指定多播地址的配置

}

#提示：
1）不一樣實例的通訊認證密碼也最好不一樣，以確保接管正常。
2）另外一款高可用軟件Heartbeat，若是採用多播方式實現主備通訊，一樣會有多播地址衝突問題。
```
#### 開發檢測Keepalived裂腦的腳本
檢測思路：在備節點上執行腳本，若是能夠ping通主節點而且備節點有VIP就報警，讓人員介入檢查是否裂腦。

1）在lb02備節點開發腳本並執行

```
[root@lb02 scripts]# cat check_split_brain.sh
#!/bin/bash

lb01_vip=192.168.0.240
lb01_ip=192.168.0.221

while true
do
ping -c 2 -W 3 $lb01_ip &>/dev/null
if [ $? -eq 0 -a `ip a | grep "$lb01_vip" | wc -l` -eq 1 ];then
echo "ha is split brain.warning."
else
echo "ha is OK"
fi
sleep 5
done
[root@lb02 scripts]# sh check_split_brain.sh
ha is OK
ha is OK
ha is OK

#正常狀況下，主節點活着，VIP 192.168.0.221在主節點，所以不會報警，提示「ha is OK」
```
2）中止Keepalived服務看lb02腳本執行狀況。

lb01上：

```
[root@lb01 scripts]# /etc/init.d/keepalived stop
Stopping keepalived: [ OK ]
[root@lb01 scripts]# ip a | grep 192.168.0.240
[root@lb01 scripts]#

#在lb02上觀察便可，此前腳本已經執行。
[root@lb02 scripts]# sh check_split_brain.sh
ha is OK
ha is OK
ha is OK
ha is split brain.warning.
ha is split brain.warning.
ha is split brain.warning.
```
3）關掉lb01服務器，而後再觀察lb02腳本的輸出。

```
[root@lb02 scripts]# sh check_split_brain.sh
ha is OK
ha is OK
ha is OK
ha is split brain.warning.
ha is split brain.warning.
ha is split brain.warning.
ha is OK
ha is OK
ha is OK

#裂腦報警恢復了。
```
4）能夠將此腳本整合到Nagios或Zabbix監控服務裏，進行監控報警。

最大可能發生裂腦的狀態：備用能ping通主服務器，說明物理服務器是正常的狀況下，VIP發生漂移；若這種狀況下，還沒發生裂腦，應該是主服務器的nginx服務宕了，觸發了腳本。