本系列會分析OpenStack 的高可用性(HA)概念和解決方案:html
(1)OpenStack 高可用方案概述node
(2)Neutron L3 Agent HA - VRRP (虛擬路由冗餘協議)mysql
(3)Neutron L3 Agent HA - DVR (分佈式虛機路由器)linux
(4)Pacemaker 和 OpenStack Resource Agent (RA)git
(5)RabbitMQ HAgithub
(6)MySQL HAsql
Pacemaker 承擔集羣資源管理者(CRM - Cluster Resource Manager)的角色,它是一款開源的高可用資源管理軟件,適合各類大小集羣。Pacemaker 由 Novell 支持,SLES HAE 就是用 Pacemaker 來管理集羣,而且 Pacemaker 獲得了來自Redhat,Linbit等公司的支持。它用資源級別的監測和恢復來保證集羣服務(aka. 資源)的最大可用性。它能夠用基礎組件(Corosync 或者是Heartbeat)來實現集羣中各成員之間的通訊和關係管理。它包含如下的關鍵特性:shell
Pacemaker 支持多種類型的集羣,包括 Active/Active, Active/Passive, N+1, N+M, N-to-1 and N-to-N 等。編程
這裏 有詳細的 Pacemaker 安裝方法。這是 中文版。這篇文章 提到了 Pacemaker 的一些問題和替代方案。api
Corosync 用於高可用環境中提供通信服務,位於高可用集羣架構中的底層,扮演着爲各節點(node)之間提供心跳信息傳遞這樣的一個角色。Pacemaker 位於 HA 集羣架構中資源管理、資源代理這麼個層次,它自己不提供底層心跳信息傳遞的功能,它要想與對方節點通訊就須要藉助底層的心跳傳遞服務,將信息通告給對方。
關於心跳的基本概念:
這篇文章 詳細介紹了其原理。
一個 Pacemaker 集羣每每須要使用 Fencing agent。https://alteeve.ca/w/ANCluster_Tutorial_2#Concept.3B_Fencing 詳細地闡述了Fencing的概念及其必要性。Fencing 是在一個節點不穩定或者無答覆時將其關閉,使得它不會損壞集羣的其它資源,其主要用途是消除腦裂。
一般有兩種類型的 Fencing agent:power(電源)和 storage (存儲)。Power 類型的 Agent 會將節點的電源斷電,它一般連到物理的設備好比UPS;Storage 類型的Agent 會確保某個時刻只有一個節點會讀寫共享的存儲。
一個 RA 是管理一個集羣資源的可執行程序,沒有固定其實現的編程語言,可是大部分RA都是用 shell 腳本實現的。Pacemaker 使用 RA 來和受管理資源進行交互,它既支持它自身實現的70多個RA,也支持第三方RA。Pacemaker 支持三種類型的 RA:
主流的 RA 都是 OCF 類型的。RA 支持的主要操做包括:
在一個 OpenStack Pacemaker 集羣中,每每都包括這幾種類型的 RA,好比:
在 OpenStack 控制節點Pacemaker集羣中各組件:
要實現一個 RA, 須要遵照 OCF 的規範,其規範在 http://www.opencf.org/cgi-bin/viewcvs.cgi/specs/ra/resource-agent-api.txt?rev=HEAD
下面以OpenStack Glance-api RA 爲例,說明其功能。其代碼在 https://github.com/openstack/openstack-resource-agents/blob/master/ocf/glance-api,自己實際上是一個 shell 腳本。
usage() { #RA 的功能,包括 start,stop,validate-all,meta-data,status 和 monitor glance-api 等,每一個對應下面的一個函數 cat <<UEND usage: $0 (start|stop|validate-all|meta-data|status|monitor) $0 manages an OpenStack ImageService (glance-api) process as an HA resource The 'start' operation starts the imaging service. The 'stop' operation stops the imaging service. The 'validate-all' operation reports whether the parameters are valid The 'meta-data' operation reports this RA's meta-data information The 'status' operation reports whether the imaging service is running The 'monitor' operation reports whether the imaging service seems to be working UEND } meta_data() { #meta-data 功能,輸出一段XML cat <<END ... END } ####################################################################### # Functions invoked by resource manager actions glance_api_validate() { #檢查 glance-api,好比libaray是否存在,配置文件是否存在,RA 使用的用戶是否存在 local rc check_binary $OCF_RESKEY_binary check_binary $OCF_RESKEY_client_binary # A config file on shared storage that is not available # during probes is OK. if [ ! -f $OCF_RESKEY_config ]; then if ! ocf_is_probe; then ocf_log err "Config $OCF_RESKEY_config doesn't exist" return $OCF_ERR_INSTALLED fi ocf_log_warn "Config $OCF_RESKEY_config not available during a probe" fi getent passwd $OCF_RESKEY_user >/dev/null 2>&1 rc=$? if [ $rc -ne 0 ]; then ocf_log err "User $OCF_RESKEY_user doesn't exist" return $OCF_ERR_INSTALLED fi true } glance_api_status() { #獲取運行狀態,經過檢查 pid 文件來確認 glance-api 是否在運行 local pid local rc if [ ! -f $OCF_RESKEY_pid ]; then ocf_log info "OpenStack ImageService (glance-api) is not running" return $OCF_NOT_RUNNING else pid=`cat $OCF_RESKEY_pid` fi ocf_run -warn kill -s 0 $pid rc=$? if [ $rc -eq 0 ]; then return $OCF_SUCCESS else ocf_log info "Old PID file found, but OpenStack ImageService (glance-api) is not running" return $OCF_NOT_RUNNING fi } glance_api_monitor() { #監控 glance-api 服務的運行狀態,經過運行 glance image-list 命令 local rc glance_api_status rc=$? # If status returned anything but success, return that immediately if [ $rc -ne $OCF_SUCCESS ]; then return $rc fi # Monitor the RA by retrieving the image list if [ -n "$OCF_RESKEY_os_username" ] && [ -n "$OCF_RESKEY_os_password" ] \ && [ -n "$OCF_RESKEY_os_tenant_name" ] && [ -n "$OCF_RESKEY_os_auth_url" ]; then ocf_run -q $OCF_RESKEY_client_binary \ --os_username "$OCF_RESKEY_os_username" \ --os_password "$OCF_RESKEY_os_password" \ --os_tenant_name "$OCF_RESKEY_os_tenant_name" \ --os_auth_url "$OCF_RESKEY_os_auth_url" \ index > /dev/null 2>&1 rc=$? if [ $rc -ne 0 ]; then ocf_log err "Failed to connect to the OpenStack ImageService (glance-api): $rc" return $OCF_NOT_RUNNING fi fi ocf_log debug "OpenStack ImageService (glance-api) monitor succeeded" return $OCF_SUCCESS } glance_api_start() { #啓動 glance-api 服務 local rc glance_api_status rc=$? if [ $rc -eq $OCF_SUCCESS ]; then ocf_log info "OpenStack ImageService (glance-api) already running" return $OCF_SUCCESS fi # run the actual glance-api daemon. Don't use ocf_run as we're sending the tool's output # straight to /dev/null anyway and using ocf_run would break stdout-redirection here. su ${OCF_RESKEY_user} -s /bin/sh -c "${OCF_RESKEY_binary} --config-file $OCF_RESKEY_config \ $OCF_RESKEY_additional_parameters"' >> /dev/null 2>&1 & echo $!' > $OCF_RESKEY_pid # Spin waiting for the server to come up. # Let the CRM/LRM time us out if required while true; do glance_api_monitor rc=$? [ $rc -eq $OCF_SUCCESS ] && break if [ $rc -ne $OCF_NOT_RUNNING ]; then ocf_log err "OpenStack ImageService (glance-api) start failed" exit $OCF_ERR_GENERIC fi sleep 1 done ocf_log info "OpenStack ImageService (glance-api) started" return $OCF_SUCCESS } glance_api_stop() { #中止 glance-api 服務 local rc local pid glance_api_status rc=$? if [ $rc -eq $OCF_NOT_RUNNING ]; then ocf_log info "OpenStack ImageService (glance-api) already stopped" return $OCF_SUCCESS fi # Try SIGTERM pid=`cat $OCF_RESKEY_pid` ocf_run kill -s TERM $pid rc=$? if [ $rc -ne 0 ]; then ocf_log err "OpenStack ImageService (glance-api) couldn't be stopped" exit $OCF_ERR_GENERIC fi # stop waiting shutdown_timeout=15 if [ -n "$OCF_RESKEY_CRM_meta_timeout" ]; then shutdown_timeout=$((($OCF_RESKEY_CRM_meta_timeout/1000)-5)) fi count=0 while [ $count -lt $shutdown_timeout ]; do glance_api_status rc=$? if [ $rc -eq $OCF_NOT_RUNNING ]; then break fi count=`expr $count + 1` sleep 1 ocf_log debug "OpenStack ImageService (glance-api) still hasn't stopped yet. Waiting ..." done glance_api_status rc=$? if [ $rc -ne $OCF_NOT_RUNNING ]; then # SIGTERM didn't help either, try SIGKILL ocf_log info "OpenStack ImageService (glance-api) failed to stop after ${shutdown_timeout}s \ using SIGTERM. Trying SIGKILL ..." ocf_run kill -s KILL $pid fi ocf_log info "OpenStack ImageService (glance-api) stopped" rm -f $OCF_RESKEY_pid return $OCF_SUCCESS } ####################################################################### case "$1" in meta-data) meta_data exit $OCF_SUCCESS;; usage|help) usage exit $OCF_SUCCESS;; esac # Anything except meta-data and help must pass validation glance_api_validate || exit $? # What kind of method was invoked? case "$1" in start) glance_api_start;; stop) glance_api_stop;; status) glance_api_status;; monitor) glance_api_monitor;; validate-all) ;; *) usage exit $OCF_ERR_UNIMPLEMENTED;; esac
(1)由於上述的 RA 是第三方的,所以須要將它下載到本地,RA 所在的文件夾是 /usr/lib/ocf/resource.d/provider,對 OpenStack 來講,就是 /usr/lib/ocf/resource.d/openstack。而後設置其權限爲可運行。
(2)經過運行 crm configure,輸入下面的配置,就能夠建立一個 Pacemaker 資源來對 glance-api 服務進行 monitor:
primitive p_glance-api ocf:openstack:glance-api \ params config="/etc/glance/glance-api.conf" os_password="secretsecret" \ os_username="admin" os_tenant_name="admin" os_auth_url="http://192.168.42. 103:5000/v2.0/" \ op monitor interval="30s" timeout="30s"
該配置指定了:
(3)建立一個 service group
group g_services_api p_api-ip p_keystone p_glance-api p_cinder-api p_neutron-server p_glance-registry p_ceilometer-agent-central
Pacemaker group 的一些特性:
Pacemaker 根據 CIB 中對資源的 operation 的定義來執行相應的 RA 中的命令:
(1)monitor:Pacemaker 使用 monitor 接口來檢查整個集羣範圍內該資源的狀態,來避免重複啓動一個資源。同時,重啓已經崩潰的資源。
(2)restart:在被 monitored 的資源不在運行時,它會被重啓(stop 再 start)。須要注意的是,Pacemaker 不必定在原來的節點上重啓某服務,所以,須要經過更多的限制條件(group 和 colocation),來使得某服務在規定的節點上運行。
(3)failover:當 master 節點宕機時,Pacemaker 會啓動failover 將它監管的服務切換到被節點上繼續運行。這種切換,也許須要啓動服務,也許只須要作上下文切換便可。
這篇文章 分析了用戶在 CIB 中對 Pacemaker 所作的配置和 Pacemaker 的行爲時間之間的關係。
CIB 針對重啓服務的行爲,作了兩種規定:
各類配置項、值和結果:
這篇文章經過多種測試,得出以下基本的結論:
詳細的結論能夠直接閱讀那論文。