本節重點介紹 nova-scheduler 的調度機制和實現方法:即解決如何選擇在哪一個計算節點上啓動 instance 的問題。web
建立 Instance 時,用戶會提出資源需求,例如 CPU、內存、磁盤各須要多少。架構
OpenStack 將這些需求定義在 flavor 中,用戶只須要指定用哪一個 flavor 就能夠了。 spa
可用的 flavor 在 System->Flavors 中管理。 翻譯
Flavor 主要定義了 VCPU,RAM,DISK 和 Metadata 這四類。 nova-scheduler 會按照 flavor 去選擇合適的計算節點。 VCPU,RAM,DISK 比較好理解,而 Metatdata 比較有意思,咱們後面會具體討論。 debug
下面介紹 nova-scheduler 是如何實現調度的。 日誌
在 /etc/nova/nova.conf 中,nova 經過 scheduler_driver,scheduler_available_filters 和 scheduler_default_filters 這三個參數來配置 nova-scheduler。 orm
Filter scheduler 是 nova-scheduler 默認的調度器,調度過程分爲兩步: server
經過過濾器(filter)選擇知足條件的計算節點(運行 nova-compute) blog
經過權重計算(weighting)選擇在最優(權重值最大)的計算節點上建立 Instance。 內存
scheduler_driver=nova.scheduler.filter_scheduler.FilterScheduler
Nova 容許使用第三方 scheduler,配置 scheduler_driver 便可。 這又一次體現了OpenStack的開放性。
Scheduler 可使用多個 filter 依次進行過濾,過濾以後的節點再經過計算權重選出最適合的節點。
上圖是調度過程的一個示例:
最開始有 6 個計算節點 Host1-Host6
經過多個 filter 層層過濾,Host2 和 Host4 沒有經過,被刷掉了
Host1,Host3,Host5,Host6 計算權重,結果 Host5 得分最高,最終入選
當 Filter scheduler 須要執行調度操做時,會讓 filter 對計算節點進行判斷,filter 返回 True 或 False。
Nova.conf 中的 scheduler_available_filters 選項用於配置 scheduler 可用的 filter,默認是全部 nova 自帶的 filter 均可以用於濾操做。
scheduler_available_filters = nova.scheduler.filters.all_filters
另外還有一個選項 scheduler_default_filters,用於指定 scheduler 真正使用的 filter,默認值以下
scheduler_default_filters = RetryFilter, AvailabilityZoneFilter, RamFilter, DiskFilter, ComputeFilter, ComputeCapabilitiesFilter, ImagePropertiesFilter, ServerGroupAntiAffinityFilter, ServerGroupAffinityFilter
Filter scheduler 將按照列表中的順序依次過濾。 下面依次介紹每一個 filter。
RetryFilter 的做用是刷掉以前已經調度過的節點。
舉個例子方便你們理解: 假設 A,B,C 三個節點都經過了過濾,最終 A 由於權重值最大被選中執行操做。 但因爲某個緣由,操做在 A 上失敗了。 默認狀況下,nova-scheduler 會從新執行過濾操做(重複次數由 scheduler_max_attempts 選項指定,默認是 3)。 那麼這時候 RetryFilter 就會將 A 直接刷掉,避免操做再次失敗。 RetryFilter 一般做爲第一個 filter。
爲提升容災性和提供隔離服務,能夠將計算節點劃分到不一樣的Availability Zone中。
例如把一個機架上的機器劃分在一個 Availability Zone 中。 OpenStack 默認有一個命名爲 「Nova」 的 Availability Zone,全部的計算節點初始都是放在 「Nova」 中。 用戶能夠根據須要建立本身的 Availability Zone。
建立 Instance 時,須要指定將 Instance 部署到在哪一個 Availability Zone中。
nova-scheduler 在作 filtering 時,會使用 AvailabilityZoneFilter 將不屬於指定 Availability Zone 的計算節點過濾掉。
RamFilter 將不能知足 flavor 內存需求的計算節點過濾掉。
對於內存有一點須要注意: 爲了提升系統的資源使用率,OpenStack 在計算節點可用內存時容許 overcommit,也就是能夠超過實際內存大小。 超過的程度是經過 nova.conf 中 ram_allocation_ratio 這個參數來控制的,默認值爲 1.5
ram_allocation_ratio = 1.5
其含義是:若是計算節點的內存有 10GB,OpenStack 則會認爲它有 15GB(10*1.5)的內存。
DiskFilter 將不能知足 flavor 磁盤需求的計算節點過濾掉。
Disk 一樣容許 overcommit,經過 nova.conf 中 disk_allocation_ratio 控制,默認值爲 1
disk_allocation_ratio = 1.0
CoreFilter 將不能知足 flavor vCPU 需求的計算節點過濾掉。
vCPU 一樣容許 overcommit,經過 nova.conf 中 cpu_allocation_ratio 控制,默認值爲 16
cpu_allocation_ratio = 16.0
這意味着一個 8 vCPU 的計算節點,nova-scheduler 在調度時認爲它有 128 個 vCPU。 須要提醒的是: nova-scheduler 默認使用的 filter 並無包含 CoreFilter。 若是要用,能夠將 CoreFilter 添加到 nova.conf 的 scheduler_default_filters 配置選項中。
ComputeFilter 保證只有 nova-compute 服務正常工做的計算節點纔可以被 nova-scheduler調度。
ComputeFilter 顯然是必選的 filter。
ComputeCapabilitiesFilter 根據計算節點的特性來篩選。
這個比較高級,咱們舉例說明。 例如咱們的節點有 x86_64 和 ARM 架構的,若是想將 Instance 指定部署到 x86_64 架構的節點上,就能夠利用到 ComputeCapabilitiesFilter。
還記得 flavor 中有個 Metadata 嗎,Compute 的 Capabilitie s就在 Metadata中 指定。
「Compute Host Capabilities」 列出了全部可設置 Capabilities。
點擊 「Architecture」 後面的 「+」,就能夠在右邊的列表中指定具體的架構。
配置好後,ComputeCapabilitiesFilter 在調度時只會篩選出 x86_64 的節點。 若是沒有設置 Metadata,ComputeCapabilitiesFilter 不會起做用,全部節點都會經過篩選。
ImagePropertiesFilter 根據所選 image 的屬性來篩選匹配的計算節點。 跟 flavor 相似,image 也有 metadata,用於指定其屬性。
例如但願某個 image 只能運行在 kvm 的 hypervisor 上,能夠經過 「Hypervisor Type」 屬性來指定。
點擊 「+」,而後在右邊的列表中選擇 「kvm」。
配置好後,ImagePropertiesFilter 在調度時只會篩選出 kvm 的節點。 若是沒有設置 Image 的Metadata,ImagePropertiesFilter 不會起做用,全部節點都會經過篩選。
ServerGroupAntiAffinityFilter 能夠儘可能將 Instance 分散部署到不一樣的節點上。
例若有 inst1,inst2 和 inst3 三個 instance,計算節點有 A,B 和 C。 爲保證分散部署,進行以下操做:
建立一個 anti-affinity 策略的 server group 「group-1」
nova server-group-create --policy anti-affinity group-1
請注意,這裏的 server group 實際上是 instance group,並非計算節點的 group。
依次建立 Instance,將inst1, inst2和inst3放到group-1中
nova boot --image IMAGE_ID --flavor 1 --hint group=group-1 inst1 nova boot --image IMAGE_ID --flavor 1 --hint group=group-1 inst2 nova boot --image IMAGE_ID --flavor 1 --hint group=group-1 inst3
由於 group-1 的策略是 AntiAffinity,調度時 ServerGroupAntiAffinityFilter 會將 inst1, inst2 和 inst3 部署到不一樣計算節點 A, B 和 C。
目前只能在 CLI 中指定 server group 來建立 instance。
建立 instance 時若是沒有指定 server group,ServerGroupAntiAffinityFilter 會直接經過,不作任何過濾。
與 ServerGroupAntiAffinityFilter 的做用相反,ServerGroupAffinityFilter 會盡可能將 instance 部署到同一個計算節點上。 方法相似
建立一個 affinity 策略的 server group 「group-2」
nova server-group-create --policy affinity group-2
依次建立 instance,將 inst1, inst2 和 inst3 放到 group-2 中
nova boot --image IMAGE_ID --flavor 1 --hint group=group-2 inst1 nova boot --image IMAGE_ID --flavor 1 --hint group=group-2 inst2 nova boot --image IMAGE_ID --flavor 1 --hint group=group-2 inst3
由於 group-2 的策略是 Affinity,調度時 ServerGroupAffinityFilter 會將 inst1, inst2 和 inst3 部署到同一個計算節點。
建立 instance 時若是沒有指定 server group,ServerGroupAffinityFilter 會直接經過,不作任何過濾。
通過前面一堆 filter 的過濾,nova-scheduler 選出了可以部署 instance 的計算節點。 若是有多個計算節點經過了過濾,那麼最終選擇哪一個節點呢?
Scheduler 會對每一個計算節點打分,得分最高的獲勝。 打分的過程就是 weight,翻譯過來就是計算權重值,那麼 scheduler 是根據什麼來計算權重值呢?
目前 nova-scheduler 的默認實現是根據計算節點空閒的內存量計算權重值: 空閒內存越多,權重越大,instance 將被部署到當前空閒內存最多的計算節點上。
是時候完整的回顧一下 nova-scheduler 的工做過程了。 整個過程都被記錄到 nova-scheduler 的日誌中。 好比當咱們部署一個 instance 時
打開 nova-scheduler 的日誌 /opt/stack/logs/n-sch.log(非 devstack 安裝其日誌在 /var/log/nova/scheduler.log)
日誌顯示初始有兩個 host(在咱們的實驗環境中就是 devstack-controller 和 devstack-compute1),依次通過 9 個 filter 的過濾(RetryFilter, AvailabilityZoneFilter, RamFilter, DiskFilter, ComputeFilter, ComputeCapabilitiesFilter, ImagePropertiesFilter, ServerGroupAntiAffinityFilter, ServerGroupAffinityFilter),兩個計算節點都經過了。
那麼接下來就該 weight 了:
能夠看到由於 devstack-controller 的空閒內存比 devstack-compute1 多(7466 > 3434),權重值更大(1.0 > 0.4599),最終選擇 devstack-controller。
注:要顯示 DEBUG 日誌,須要在 /etc/nova/nova.conf 中打開 debug 選項
[DEFAULT] debug = True
nova-scheduler 就是這些內容了,稍微有些複雜哈(由於靈活嘛),你們這兩天能夠好好消化一下。
下節咱們討論 nova-compute。