Hadoop集羣三種做業調度算法介紹

時間 2019-11-13

原文原文鏈接

Hadoop集羣中有三種做業調度算法，分別爲FIFO，公平調度算法和計算能力調度算法
先來先服務（FIFO）
Hadoop中默認的調度器FIFO，它先按照做業的優先級高低，再按照到達時間的前後選擇被執行的做業。
FIFO比較簡單，hadoop中只有一個做業隊列，被提交的做業按照前後順序在做業隊列中排隊，新來的做業插入到隊尾。一個做業運行完後，老是從隊首取下一個做業運行。這種調度策略的優勢是簡單、易於實現，同時也減輕了jobtracker的負擔。可是它的缺點也是顯然的，它對全部的做業都一視同仁，沒有考慮到做業的緊迫程度，另外對小做業的運行不利。
公平調度策略
這種策略在系統中配置了任務槽，一個任務槽能夠運行一個task任務，這些任務就是一個大的做業被切分後的小做業。當一個用戶提交多個做業時，每一個做業可以分配到必定的任務槽以執行task任務（這裏的任務槽能夠理解爲能夠運行一個map任務或reduce任務）。若是把整個hadoop集羣做業調度跟操做系統的做業調度相比，第一種FIFO就至關於操做系統中早期的單道批處理系統，系統中每一個時刻只有一道做業在運行，而公平調度至關於多道批處理系統，它實現了同一個時刻多道做業同時運行。因爲linux是多用戶的，如有多個用戶同時提交多個做業會怎樣？在這種策略中給每一個用戶分配一個做業池，而後給每一個做業池設置一個最小共享槽個數，什麼是最小共享槽個數呢？先要理解一個最小什麼意思，最小是指只要這個做業池須要，調度器應該確保可以知足這個做業池的最小任務槽數的需求，可是如何才能確保在它須要的時候就有空的任務槽，一種方法是固定分配必定數量的槽給做業池不動，這個數量至少是最小任務槽值，這樣只要在做業池須要的時候就分配給它就好了，可是這樣在這個做業池沒有用到這麼多任務槽的時候會形成浪費，這種策略其實是這樣作的，看成業池的需求沒有達到最小任務槽數時，名義上是本身的剩餘的任務槽會被分給其餘有須要的做業池，當一個做業池須要申請任務槽的時候若系統中沒有了，這時候不會去搶佔別人的（也不知道搶誰的啊），只要當前一個空的任務槽釋放會被當即分配給這個做業池。
在一個用戶的做業池內，多個做業如何分配槽這個能夠自行選擇瞭如FIFO。因此這種調度策略分爲兩級：
第一級，在池間分配槽，在多用戶的狀況下，每一個用戶分配一個做業池。
第二級，在做業池內，每一個用戶能夠使用不一樣的調度策略。
計算能力調度
計算能力調度和公平調度有點相似，公平調度策略是以做業池爲單位分配任務槽，而計算能力調度是以隊列爲單位分配tasktracker（集羣中一個節點），這種調度策略配置了多個隊列，每一個隊列配置了最小額度的tasktracker數量，同公平調度策略相似，當一個隊列有空閒的 tasktracker時，調度器會將空閒的分配給其餘的隊列，當有空閒的tasktracker時，因爲這時候可能有多個隊列沒有獲得最小額度的 tasktracker而又在申請新的，空閒的tasktracker會被優先分配到最飢餓的隊列中去，如何衡量飢餓程度呢？能夠經過計算隊列中正在運行的任務數與其分得的計算資源之間的比值是否最低來判斷的，越低說明飢餓程度越高。
計算能力調度策略是以隊列的方式組織做業的，因此一個用戶的做業可能在多個隊列中，若是不對用戶作必定的限制，極可能出如今多個用戶之間出現嚴重不公平的現象。因此在選中新做業運行時候，還須要考慮做業所屬的用戶是否超過了資源的限制，若是超過，做業不會被選中。
對於在同一個隊列中，這種策略使用的是基於優先級的FIFO策略，可是不會搶佔。linux