MySQL高可用集羣之MHA

時間 2020-02-23

標籤 mysql 可用集羣 mha 欄目 MySQL 简体版

原文原文鏈接

MySQL高可用集羣之MHA

1、MHA簡介

MHA（Master High Availability）目前在MySQL高可用方面是一個相對成熟的解決方案，它由日本DeNA公司youshimaton（現就任於Facebook公司）開發，是一套優秀的做爲MySQL高可用性環境下故障切換和主從提高的高可用軟件。在MySQL故障切換過程當中，MHA能作到在0~30秒以內自動完成數據庫的故障切換操做，而且在進行故障切換的過程當中，MHA能在最大程度上保證數據的一致性，以達到真正意義上的高可用。 MHA裏有兩個角色一個是MHA Node（數據節點）另外一個是MHA Manager（管理節點）。node

MHA Manager能夠單獨部署在一臺獨立的機器上管理多個master-slave集羣，也能夠部署在一臺slave節點上。

MHA Node運行在每臺MySQL服務器上，MHA Manager會定時探測集羣中的master節點，當master出現故障時，它能夠自動將最新數據的slave提高爲新的master，而後將全部其餘的slave從新指向新的master。整個故障轉移過程對應用程序徹底透明。

MHA自動故障切換過程當中，MHA試圖從宕機的主服務器上保存二進制日誌，最大程度的保證數據的不丟失，但這並不老是可行的。例如，若是主服務器硬件故障或沒法經過ssh訪問，MHA無法保存二進制日誌，只進行故障轉移而丟失了最新的數據。使用MySQL 5.5的半同步複製，能夠大大下降數據丟失的風險。MHA能夠與半同步複製結合起來。若是隻有一個slave已經收到了最新的二進制日誌，MHA能夠將最新的二進制日誌應用於其餘全部的slave服務器上，所以能夠保證全部節點的數據一致性。mysql

同步的概念：

異步複製（Asynchronous replication） MySQL默認的複製便是異步的，主庫在執行完客戶端提交的事務後會當即將結果返給給客戶端，並不關心從庫是否已經接收並處理，這樣就會有一個問題，主若是crash掉了，此時主上已經提交的事務可能並無傳到從上，若是此時，強行將從提高爲主，可能致使新主上的數據不完整。

全同步複製（Fully synchronous replication） 指當主庫執行完一個事務，全部的從庫都執行了該事務才返回給客戶端。由於須要等待全部從庫執行完該事務才能返回，因此全同步複製的性能必然會收到嚴重的影響。

半同步複製（Semisynchronous replication） 介於異步複製和全同步複製之間，主庫在執行完客戶端提交的事務後不是馬上返回給客戶端，而是等待至少一個從庫接收到並寫到relay log中才返回給客戶端。相對於異步複製，半同步複製提升了數據的安全性，同時它也形成了必定程度的延遲，這個延遲最少是一個TCP/IP往返的時間。因此，半同步複製最好在低延時的網絡中使用。
總結：

異步與半同步異同 默認狀況下MySQL的複製是異步的，Master上全部的更新操做寫入Binlog以後並不確保全部的更新都被複制到Slave之上。異步操做雖然效率高，可是在Master/Slave出現問題的時候，存在很高數據不一樣步的風險，甚至可能丟失數據。 MySQL5.5引入半同步複製功能的目的是爲了保證在master出問題的時候，至少有一臺Slave的數據是完整的。在超時的狀況下也能夠臨時轉入異步複製，保障業務的正常使用，直到一臺salve追遇上以後，繼續切換到半同步模式。linux

工做原理

相較於其它HA軟件，MHA的目的在於維持MySQL Replication中Master庫的高可用性，其最大特色是能夠修復多個Slave之間的差別日誌，最終使全部Slave保持數據一致，而後從中選擇一個充當新的Master，並將其它Slave指向它。從宕機崩潰的master保存二進制日誌事件(binlogevents)。識別含有最新更新的slave。應用差別的中繼日誌(relay log)到其它slave。應用從master保存的二進制日誌事件(binlogevents)。提高一個slave爲新master。使其它的slave鏈接新的master進行復制。git

目前MHA主要支持一主多從的架構，要搭建MHA,要求一個複製集羣中必須最少有三臺數據庫服務器，一主二從，即一臺充當master，一臺充當備用master，另一臺充當從庫，由於至少須要三臺服務器。github

2、部署MHA

環境：

主機	操做系統	IP地址
master1	CentOS 7.3	192.168.1.1
master2(備主)	CentOS 7.3	192.168.1.8
slave1	CentOS 7.3	192.168.1.9
manager	CentOS 7.3	192.168.1.3

其中master對外提供寫服務，備選master2提供讀服務，slave也提供相關的讀服務，一旦master1宕機，將會把master2提高爲新的master，slave指向新的master，manager做爲管理服務器。sql

案例中關閉防火牆、selinuxshell

# systemctl stop firewalld
# setenforce 0

一、基礎環境準備

1）在配置好IP地址後檢查Selinux，Firewalld設置，關閉 Selinux ，Firewalld服務以便後期主從同步不出錯注：時間要同步

修改hosts文件，並傳到其餘主機數據庫

[root@master1 ~]# vim /etc/hosts
192.168.1.1  master1
192.168.1.8  master2
192.168.1.9  slave1
192.168.1.3  manager

[root@master1 ~]# for i in master2 slave1 manager ; do scp /etc/hosts $i:/etc/hosts ; done

配置NTP時間同步（master1）：vim

[root@master1 ~]# vim /etc/chrony.conf

在其餘服務器的配置文件中指向master1的IP地址
安全

配置完成後，從新啓動chronyd服務，配置開機自啓

# systemctl restart chronyd
# systemctl enable chronyd

2）配置epel源（4臺主機）

https://developer.aliyun.com/mirror/

# wget -O /etc/yum.repos.d/epel.repo http://mirrors.aliyun.com/repo/epel-7.repo

3）創建SSH無交互登錄環境（4臺主機）

# ssh-keygen -t rsa
# for host in master1 master2 slave1 manager ;do ssh-copy-id -i ~/.ssh/id_rsa.pub $host;done

測試ssh無交互登陸

在其餘主機上執行一樣的測試操做。

二、配置MySQL半同步複製

爲了儘量的減小主庫硬件損壞宕機形成的數據丟失，所以在配置MHA的同時建議配置成MySQL的半同步複製。
PS：mysql半同步插件是由谷歌提供，具體位置/usr/local/mysql/lib/plugin/下，一個是master用的semisync_master.so，一個是slave用的semisync_slave.so。

下面就來具體配置一下。若是不清楚Plugin的目錄，用以下查找：

[root@master1 ~]# mysql -uroot -p123.com
mysql> show variables like '%plugin_dir%';

1）分別在主從節點上安裝相關的插件（master1, master2,slave1）在MySQL上安裝插件須要數據庫支持動態載入。檢查是否支持，用以下檢測

mysql> show variables like '%have_dynamic%';

全部MySQL數據庫服務器，安裝半同步插件(semisync_master.so,semisync_slave.so)

mysql> install plugin rpl_semi_sync_master soname 'semisync_master.so';
Query OK, 0 rows affected (0.01 sec)

mysql> install plugin rpl_semi_sync_slave soname 'semisync_slave.so';
Query OK, 0 rows affected (0.01 sec)
其餘mysql主機採用一樣的方法安裝

檢查Plugin是否已正確安裝：

mysql> show plugins\G

或：

mysql> select * from information_schema.plugins\G;

查看半同步相關信息

mysql> show variables like '%rpl_semi_sync%';

能夠看到半同複製插件已經安裝，只是尚未啓用，因此是off

2）修改my.cnf文件，配置主從同步：

PS：若主MYSQL服務器已經存在，只是後期才搭建從MYSQL服務器，在置配數據同步前應先將主MYSQL服務器的要同步的數據庫拷貝到從MYSQL服務器上（如先在主MYSQL上備份數據庫，再用備份在從MYSQL服務器上恢復）

在DB的配置文件中添加：
master1主機：

[root@master1 ~]# vim /etc/my.cnf
server-id=1
log-bin=mysql-bin       //二進制日誌
binlog_format=mixed     //binlog日誌格式，mysql默認採用statement，建議使用mixed
log-bin-index=mysql-bin.index
rpl_semi_sync_master_enabled=1
rpl_semi_sync_master_timeout=1000
rpl_semi_sync_slave_enabled=1
relay_log_purge=0
relay-log = relay-bin       //中繼日誌，存儲全部主庫TP過來的binlog事件
relay-log-index=slave-relay-bin.index

PS：

rpl_semi_sync_master_enabled=1 //1表是啓用，0表示關閉

rpl_semi_sync_master_timeout=10000：毫秒單位，該參數主服務器等待確認消息10秒後，再也不等待，變爲異步方式。

relay_log_purge=0，禁止 SQL 線程在執行完一個 relay log 後自動將其刪除，對於MHA場景下，對於某些滯後從庫的恢復依賴於其餘從庫的relay log，所以採起禁用自動刪除功能

master2主機：

[root@master2 ~]# vim /etc/my.cnf
server-id=2
log-bin=mysql-bin 
binlog_format=mixed
log-bin-index=mysql-bin.index
rpl_semi_sync_master_enabled=1
rpl_semi_sync_master_timeout=10000
rpl_semi_sync_slave_enabled=1
relay_log_purge=0   
relay-log = relay-bin
relay-log-index=slave-relay-bin.index

slave1主機：

[root@slave1 ~]# vim /etc/my.cnf
server-id=3
log-bin=mysql-bin
relay-log=relay-bin
relay-log-index=slave-relay-bin.index
read_only=1
rpl_semi_sync_slave_enabled=1

重啓服務，查看半同步相關信息

# systemctl restart mysqld
[root@master1 ~]# mysql -uroot -p123.com
mysql> show variables like '%rpl_semi_sync%';

查看半同步狀態：

mysql> show status like '%rpl_semi_sync%';

有幾個狀態參數值得關注的：

rpl_semi_sync_master_status：顯示主服務是異步複製模式仍是半同步複製模式

rpl_semi_sync_master_clients ：顯示有多少個從服務器配置爲半同步複製模式

rpl_semi_sync_master_yes_tx ：顯示從服務器確認成功提交的數量

rpl_semi_sync_master_no_tx ：顯示從服務器確認不成功提交的數量

rpl_semi_sync_master_tx_avg_wait_time ：事務因開啓 semi_sync ，平均須要額外等待的時間

rpl_semi_sync_master_net_avg_wait_time ：事務進入等待隊列後，到網絡平均等待時間

在DB上建立受權用戶
master1：
建立用於主從複製的帳號（master1，master2都要建立）：

mysql> grant replication slave on *.* to mharep@'192.168.1.%' identified by '123.com';
Query OK, 0 rows affected, 1 warning (1.01 sec)

建立MHA管理帳號（三臺DB服務器）MHA會在配置文件裏要求能遠程登陸到數據庫，因此要進行必要的賦權：

mysql> grant all privileges on *.* to manager@'192.168.1.%' identified by '123.com';
Query OK, 0 rows affected, 1 warning (0.00 sec)

mysql> show master status;

master2主機：

[root@master2 ~]# mysql -uroot -p123.com
mysql> grant replication slave on *.* to mharep@'192.168.1.%' identified by '123.com';      //主從複製帳號
Query OK, 0 rows affected, 1 warning (0.00 sec)

mysql> grant all privileges on *.* to manager@'192.168.1.%' identified by '123.com';        //MHA管理帳號
Query OK, 0 rows affected, 1 warning (0.00 sec)

mysql> change master to master_host='192.168.1.1',master_port=3306,master_user='mharep',master_password='123.com',master_log_file='mysql-bin.000001',master_log_pos=742;
Query OK, 0 rows affected, 2 warnings (0.02 sec)

mysql> start slave;     //開啓主從同步
Query OK, 0 rows affected (0.01 sec)

查看從的狀態，如下兩個值必須爲yes,表明從服務器能正常鏈接主服務器

mysql> show slave status\G;

slave1主機：

[root@slave1 ~]# mysql -uroot -p123.com
mysql> grant all privileges on *.* to manager@'192.168.1.%' identified by '123.com';        //MHA管理帳號
Query OK, 0 rows affected, 1 warning (0.00 sec)

mysql> change master to master_host='192.168.1.1',master_port=3306,master_user='mharep',master_password='123.com',master_log_file='mysql-bin.000001',master_log_pos=742;
Query OK, 0 rows affected, 2 warnings (0.01 sec)

mysql> start slave;
Query OK, 0 rows affected (0.01 sec)

查看從的狀態，如下兩個值必須爲yes,表明從服務器能正常鏈接主服務器

mysql> show slave status\G

查看master服務器的半同步狀態：

mysql> show status like '%rpl_semi_sync%';

三、配置MySQL-MHA

MHA包括manager節點和data節點，data節點包括原有的MySQL複製結構中的主機，至少3臺，即1主2從，當masterfailover後，還能保證主從結構；只需安裝node包。

manager server：運行監控腳本，負責monitoring

auto-failover：須要安裝node包和manager包

1）在全部主機上安裝MHA所依賴的軟件包（須要系統自帶的YUM源並聯網）

# yum -y install perl-DBD-MySQL perl-Config-Tiny perl-Log-Dispatch perl-Parallel-ForkManager perl-Config-IniFiles ncftp perl-Params-Validate perl-CPAN perl-Test-Mock-LWP.noarch perl-LWP-Authen-Negotiate.noarch perl-devel perl-ExtUtils-CBuilder perl-ExtUtils-MakeMaker

更改當前cpan源，在案例中可能遇到沒有安裝的依賴庫，使用國內源安裝時快

[root@manager ~]# cpan

刪除以前的源：

cpan[1]> o conf urllist

cpan[2]> o conf urllist pop http://mirrors.nxthost.com/CPAN/
cpan[3]> o conf urllist pop http://mirrors.nic.cz/CPAN/
cpan[4]> o conf urllist pop http://cpan.panu.it/
cpan[5]> o conf urllist

添加國內源：

cpan[6]>  o conf urllist push http://mirrors.aliyun.com/CPAN/
cpan[7]> o conf urllist push http://mirrors.163.com/cpan/
cpan[8]> o conf urllist

提交保存退出

cpan[10]> o conf commit
cpan[11]> o conf urllist

cpan[12]> exit

2）如下操做管理節點須要兩個都安裝，在3臺數據庫節點只要安裝MHA的node節點：

軟件下載 https://github.com/yoshinorim

在全部數據庫節點上安裝mha4mysql-node-0.58.tar.gz（在管理節點須要node和manager都要安裝都安裝）

# wget https://github.com/yoshinorim/mha4mysql-node/releases/download/v0.58/mha4mysql-node-0.58.tar.gzls
# tar zxf mha4mysql-node-0.58.tar.gz 
# cd mha4mysql-node-0.58/
# perl Makefile.PL
*** Module::AutoInstall version 1.06
*** Checking for Perl dependencies...
[Core Features]
- DBI        ...loaded. (1.627)
- DBD::mysql ...loaded. (4.023)
*** Module::AutoInstall configuration finished.
Checking if your kit is complete...
Looks good
Writing Makefile for mha4mysql::node
# make && make install

在manager安裝mha4mysql-manager-0.58.tar.gz（node使用上面的方法安裝）

[root@manager ~]# cd /usr/local/src/
[root@manager src]# wget https://github.com/yoshinorim/mha4mysql-manager/releases/download/v0.58/mha4mysql-manager-0.58.tar.gz
[root@manager src]# tar zxf mha4mysql-manager-0.58.tar.gz 
[root@manager src]# cd mha4mysql-manager-0.58/
[root@manager mha4mysql-manager-0.58]# perl Makefile.PL
[root@manager mha4mysql-manager-0.58]# perl Makefile.PL 
*** Module::AutoInstall version 1.06
*** Checking for Perl dependencies...
[Core Features]
- DBI                   ...loaded. (1.627)
- DBD::mysql            ...loaded. (4.023)
- Time::HiRes           ...loaded. (1.9725)
- Config::Tiny          ...loaded. (2.14)
- Log::Dispatch         ...loaded. (2.41)
- Parallel::ForkManager ...loaded. (1.18)
- MHA::NodeConst        ...missing.
==> Auto-install the 1 mandatory module(s) from CPAN? [y] y
*** Dependencies will be installed the next time you type 'make'.
*** Module::AutoInstall configuration finished.
Checking if your kit is complete...
Looks good
Warning: prerequisite MHA::NodeConst 0 not found.
Writing Makefile for mha4mysql::manager
[root@manager mha4mysql-manager-0.58]# make && make install

建立關於服務的相關目錄，複製腳本，配置文件（存放命令、配置文件、腳本…）

[root@manager mha4mysql-manager-0.58]# mkdir /etc/masterha
[root@manager mha4mysql-manager-0.58]# mkdir -p /masterha/app1
[root@manager mha4mysql-manager-0.58]# mkdir /scripts
[root@manager mha4mysql-manager-0.58]# cp samples/conf/* /etc/masterha/
[root@manager mha4mysql-manager-0.58]# cp samples/scripts/* /scripts/

3）配置MHA

與絕大多數Linux應用程序相似，MHA的正確使用依賴於合理的配置文件。MHA的配置文件與mysql的my.cnf文件配置類似，採起的是param=value的方式來配置，配置文件位於管理節點，一般包括每個mysql server的主機名，mysql用戶名，密碼，工做目錄等等。

編輯/etc/masterha/app1.conf，內容以下：

[root@manager mha4mysql-manager-0.58]# vim /etc/masterha/app1.cnf
[server default]
manager_workdir=/masterha/app1      //設置manager的工做目錄
manager_log=/masterha/app1/manager.log      //設置manager的日誌 user=manager
user=manager        //設置監控用戶manager
password=123.com        //監控用戶manager的密碼
ssh_user=root       //ssh鏈接用戶
repl_user=mharep        //主從複製用戶
repl_password=123.com       //主從複製用戶密碼
ping_interval=1     //設置監控主庫，發送ping包的時間間隔，默認是3秒，嘗試三次沒有迴應的時候自動進行railover

[server1]
hostname=192.168.1.1
port=3306
master_binlog_dir=/usr/local/mysql/data     //設置master 保存binlog的位置，以便MHA能夠找到master的日誌，這裏的也就是mysql的數據目錄
candidate_master=1      //設置爲候選master，若是設置該參數之後，發生主從切換之後將會將此從庫提高爲主庫

[server2]
hostname=192.168.1.8
port=3306
master_binlog_dir=/usr/local/mysql/data
candidate_master=1

[server3]
hostname=192.168.1.9
port=3306
master_binlog_dir=/usr/local/mysql/data
no_master=1
[root@manager mha4mysql-manager-0.58]# >/etc/masterha/masterha_default.cnf        //清空文件內容

SSH 有效性驗證：

[root@manager mha4mysql-manager-0.58]# masterha_check_ssh --global_conf=/etc/masterha/masterha_default.cnf --conf=/etc/masterha/app1.cnf

集羣複製的有效性驗證： mysql必須都啓動

[root@manager mha4mysql-manager-0.58]# masterha_check_repl --global_conf=/etc/masterha/masterha_default.cnf --conf=/etc/masterha/app1.cnf
Sat Feb 22 15:05:26 2020 - [info] Reading default configuration from /etc/masterha/masterha_default.cnf..
Sat Feb 22 15:05:26 2020 - [info] Reading application default configuration from /etc/masterha/app1.cnf..
Sat Feb 22 15:05:26 2020 - [info] Reading server configuration from /etc/masterha/app1.cnf..
Sat Feb 22 15:05:26 2020 - [info] MHA::MasterMonitor version 0.58.
Sat Feb 22 15:05:27 2020 - [info] GTID failover mode = 0
Sat Feb 22 15:05:27 2020 - [info] Dead Servers:
Sat Feb 22 15:05:27 2020 - [info] Alive Servers:
Sat Feb 22 15:05:27 2020 - [info]   192.168.1.1(192.168.1.1:3306)
Sat Feb 22 15:05:27 2020 - [info]   192.168.1.8(192.168.1.8:3306)
Sat Feb 22 15:05:27 2020 - [info]   192.168.1.9(192.168.1.9:3306)
Sat Feb 22 15:05:27 2020 - [info] Alive Slaves:
Sat Feb 22 15:05:27 2020 - [info]   192.168.1.8(192.168.1.8:3306)  Version=5.7.28-log (oldest major version between slaves) log-bin:enabled
Sat Feb 22 15:05:27 2020 - [info]     Replicating from 192.168.1.1(192.168.1.1:3306)
Sat Feb 22 15:05:27 2020 - [info]     Primary candidate for the new Master (candidate_master is set)
Sat Feb 22 15:05:27 2020 - [info]   192.168.1.9(192.168.1.9:3306)  Version=5.7.28-log (oldest major version between slaves) log-bin:enabled
Sat Feb 22 15:05:27 2020 - [info]     Replicating from 192.168.1.1(192.168.1.1:3306)
Sat Feb 22 15:05:27 2020 - [info]     Not candidate for the new Master (no_master is set)
Sat Feb 22 15:05:27 2020 - [info] Current Alive Master: 192.168.1.1(192.168.1.1:3306)
Sat Feb 22 15:05:27 2020 - [info] Checking slave configurations..
Sat Feb 22 15:05:27 2020 - [info]  read_only=1 is not set on slave 192.168.1.8(192.168.1.8:3306).
Sat Feb 22 15:05:27 2020 - [warning]  relay_log_purge=0 is not set on slave 192.168.1.9(192.168.1.9:3306).
Sat Feb 22 15:05:27 2020 - [info] Checking replication filtering settings..
Sat Feb 22 15:05:27 2020 - [info]  binlog_do_db= , binlog_ignore_db= 
Sat Feb 22 15:05:27 2020 - [info]  Replication filtering check ok.
Sat Feb 22 15:05:27 2020 - [info] GTID (with auto-pos) is not supported
Sat Feb 22 15:05:27 2020 - [info] Starting SSH connection tests..
Sat Feb 22 15:05:29 2020 - [info] All SSH connection tests passed successfully.
Sat Feb 22 15:05:29 2020 - [info] Checking MHA Node version..
Sat Feb 22 15:05:29 2020 - [info]  Version check ok.
Sat Feb 22 15:05:29 2020 - [info] Checking SSH publickey authentication settings on the current master..
Sat Feb 22 15:05:29 2020 - [info] HealthCheck: SSH to 192.168.1.1 is reachable.
Sat Feb 22 15:05:29 2020 - [info] Master MHA Node version is 0.58.
Sat Feb 22 15:05:29 2020 - [info] Checking recovery script configurations on 192.168.1.1(192.168.1.1:3306)..
Sat Feb 22 15:05:29 2020 - [info]   Executing command: save_binary_logs --command=test --start_pos=4 --binlog_dir=/usr/local/mysql/data --output_file=/var/tmp/save_binary_logs_test --manager_version=0.58 --start_file=mysql-bin.000001 
Sat Feb 22 15:05:29 2020 - [info]   Connecting to root@192.168.1.1(192.168.1.1:22).. 
  Creating /var/tmp if not exists..    ok.
  Checking output directory is accessible or not..
   ok.
  Binlog found at /usr/local/mysql/data, up to mysql-bin.000001
Sat Feb 22 15:05:29 2020 - [info] Binlog setting check done.
Sat Feb 22 15:05:29 2020 - [info] Checking SSH publickey authentication and checking recovery script configurations on all alive slave servers..
Sat Feb 22 15:05:29 2020 - [info]   Executing command : apply_diff_relay_logs --command=test --slave_user='manager' --slave_host=192.168.1.8 --slave_ip=192.168.1.8 --slave_port=3306 --workdir=/var/tmp --target_version=5.7.28-log --manager_version=0.58 --relay_log_info=/usr/local/mysql/data/relay-log.info  --relay_dir=/usr/local/mysql/data/  --slave_pass=xxx
Sat Feb 22 15:05:29 2020 - [info]   Connecting to root@192.168.1.8(192.168.1.8:22).. 
  Checking slave recovery environment settings..
    Opening /usr/local/mysql/data/relay-log.info ... ok.
    Relay log found at /usr/local/mysql/data, up to relay-bin.000002
    Temporary relay log file is /usr/local/mysql/data/relay-bin.000002
    Checking if super_read_only is defined and turned on.. not present or turned off, ignoring.
    Testing mysql connection and privileges..
mysql: [Warning] Using a password on the command line interface can be insecure.
 done.
    Testing mysqlbinlog output.. done.
    Cleaning up test file(s).. done.
Sat Feb 22 15:05:29 2020 - [info]   Executing command : apply_diff_relay_logs --command=test --slave_user='manager' --slave_host=192.168.1.9 --slave_ip=192.168.1.9 --slave_port=3306 --workdir=/var/tmp --target_version=5.7.28-log --manager_version=0.58 --relay_log_info=/usr/local/mysql/data/relay-log.info  --relay_dir=/usr/local/mysql/data/  --slave_pass=xxx
Sat Feb 22 15:05:29 2020 - [info]   Connecting to root@192.168.1.9(192.168.1.9:22).. 
  Checking slave recovery environment settings..
    Opening /usr/local/mysql/data/relay-log.info ... ok.
    Relay log found at /usr/local/mysql/data, up to relay-bin.000002
    Temporary relay log file is /usr/local/mysql/data/relay-bin.000002
    Checking if super_read_only is defined and turned on.. not present or turned off, ignoring.
    Testing mysql connection and privileges..
mysql: [Warning] Using a password on the command line interface can be insecure.
 done.
    Testing mysqlbinlog output.. done.
    Cleaning up test file(s).. done.
Sat Feb 22 15:05:30 2020 - [info] Slaves settings check done.
Sat Feb 22 15:05:30 2020 - [info] 
192.168.1.1(192.168.1.1:3306) (current master)
 +--192.168.1.8(192.168.1.8:3306)
 +--192.168.1.9(192.168.1.9:3306)

Sat Feb 22 15:05:30 2020 - [info] Checking replication health on 192.168.1.8..
Sat Feb 22 15:05:30 2020 - [info]  ok.
Sat Feb 22 15:05:30 2020 - [info] Checking replication health on 192.168.1.9..
Sat Feb 22 15:05:30 2020 - [info]  ok.
Sat Feb 22 15:05:30 2020 - [warning] master_ip_failover_script is not defined.
Sat Feb 22 15:05:30 2020 - [warning] shutdown_script is not defined.
Sat Feb 22 15:05:30 2020 - [info] Got exit code 0 (Not master dead).

MySQL Replication Health is OK.

驗證成功的話會自動識別出全部服務器和主從情況

PS：驗證成功的話會自動識別出全部服務器和主從情況在驗證時，若遇到這個錯誤：Can't exec "mysqlbinlog" ...... 解決方法是在全部服務器上執行：
*ln -s /usr/local/mysql/bin/ /usr/local/bin/**

啓動 manager

[root@manager ~]# nohup masterha_manager --conf=/etc/masterha/app1.cnf &>/tmp/mha_manager.log &
[1] 12451

PS：在應用Unix/Linux時，通常想讓某個程序在後臺運行，常會用 & 在程序結尾來讓程序自動運行。好比要運行mysql在後臺： /usr/local/mysql/bin/mysqld_safe –user=mysql &。但是有不少程序並不像mysqld同樣，這樣就須要nohup（後臺運行的進程，並不會隨着shell環境的關閉而殺死進程）命令

狀態檢查：

[root@manager ~]# masterha_check_status --conf=/etc/masterha/app1.cnf
app1 (pid:12451) is running(0:PING_OK), master:192.168.1.1

四、故障轉移驗證：

(自動failover) master dead後，MHA當時已經開啓，候選Master庫（Slave）會自動failover爲Master.
驗證方式：
先停掉 master1，由於以前的配置文件中，把master2做爲了候選人，那麼就到 slave1上查看 master 的 IP 是否變爲了 master2的IP

1）在master1上把 mysql 停掉

[root@master1 mha4mysql-node-0.58]# systemctl stop mysqld

2）查看 MHA 日誌上面的配置文件中指定了日誌位置爲/masterha/app1/manager.log

[root@manager ~]# cat /masterha/app1/manager.log

從日誌信息中能夠看到 master failover 已經成功了，並能夠看出故障轉移的大致流程

3）檢查 slave1的複製

登陸 slave1的Mysql，查看 slave 狀態

[root@slave1 mha4mysql-node-0.58]# mysql -uroot -p123.com
mysql> show slave status\G

能夠看到 master 的 IP 如今爲 192.168.1.8, 已經切換到和192.168.1.8同步了，原本是和192.168.1.1同步的，說明 MHA 已經把master2提高爲了新的 master，IO線程和SQL線程也正確運行，MHA搭建成功

3、MHA Manager 端平常主要操做步驟

一、檢查是否有下列文件，有則刪除。

發生主從切換後，MHAmanager服務會自動停掉，且在manager_workdir（/masterha/app1）目錄下面生成文件app1.failover.complete（若要啓動MHA，必須先確保無此文件) 若是有這個提示，那麼刪除此文件

/ masterha/app1/app1.failover.complete [error]
[/usr/share/perl5/vendor_perl/MHA/MasterFailover.pm, ln298] Last failover was done at 2015/01/09 10:00:47.
Current time is too early to do failover again. If you want to do failover, manually remove /
masterha/app1/app1.failover.complete and run this script again.

二、檢查MHA複製檢查：（須要把master1設置成master2的從服務器）

mysql> show master status;

[root@master1 ~]# systemctl start mysqld
[root@master1 ~]# mysql -uroot -p123.com
mysql> change master to master_host='192.168.1.8',master_port=3306,master_log_file='mysql-bin.000001',master_log_pos=742,master_user='mharep',master_password='123.com';
mysql> start slave;

在manager檢查集羣狀態：

[root@manager ~]# masterha_check_repl --conf=/etc/masterha/app1.cnf

三、中止MHA：

[root@manager ~]# masterha_stop --conf/etc/masterha/app1.cnf

四、啓動MHA：

[root@manager ~]# nohup masterha_manager --conf=/etc/masterha/app1.cnf &>/tmp/mha_manager.log &

當有slave 節點宕掉時，默認是啓動不了的，加上 --ignore_fail_on_start 即便有節點宕掉也能啓動MHA，以下：

[root@manager ~]# nohup masterha_manager --conf=/etc/masterha/app1.cnf --ignore_fail_on_start&>/tmp/mha_manager.log &

五、檢查狀態：

[root@manager ~]# masterha_check_status --conf=/etc/masterha/app1.cnf
app1 (pid:13739) is running(0:PING_OK), master:192.168.1.8

PS：若是正常，會顯示"PING_OK"，不然會顯示"NOT_RUNNING"，這表明MHA監控沒有開啓。

六、檢查日誌：

[root@manager ~]# tail -f /masterha/app1/manager.log

七、主從切換後續工做

重構：重構就是主服務器宕機了，切換到備主上，備主變成了主。
所以重構的一種方案：
原主庫修復成一個新的slave，主庫切換後，把原主庫修復成新從庫。而後從新執行以上5步。

原主庫數據文件完整的狀況下，可經過如下方式找出最後執行的CHANGE MASTER命令：

[root@manager ~]# grep "CHANGE MASTER TO MASTER" /masterha/app1/manager.log | tail -1
Sat Feb 22 15:25:21 2020 - [info]  All other slaves should start replication from here. Statement should be: CHANGE MASTER TO MASTER_HOST='192.168.1.8', MASTER_PORT=3306, MASTER_LOG_FILE='mysql-bin.000001', MASTER_LOG_POS=742, MASTER_USER='mharep', MASTER_PASSWORD='xxx';

按期刪除中繼日誌在配置主從複製中，slave上設置了參數relay_log_purge=0，因此slave節點須要按期刪除中繼日誌，建議每一個slave節點刪除中繼日誌的時間錯開。

# crontab -e
0 5 * * * /usr/local/bin/purge_relay_logs - -user=root --password=123.com --port=3306 --disable_relay_log_purge >> /var/log/purge_relay.log 2>&1