Read the fucking source code!
--By 魯迅A picture is worth a thousand words.
--By 高爾基說明:linux
在Linux內核中,實時進程老是比普通進程的優先級要高,實時進程的調度是由Real Time Scheduler(RT調度器)
來管理,而普通進程由CFS調度器
來管理。
實時進程支持的調度策略爲:SCHED_FIFO
和SCHED_RR
。數據結構
前邊的系列文章都是針對CFS調度器
來分析的,包括了CPU負載
、組調度
、Bandwidth控制
等,本文的RT調度器
也會從這些角度來分析,若是看過以前的系列文章,那麼這篇文章理解起來就會更容易點了。dom
前戲很少,直奔主題。ide
有必要把關鍵的結構體羅列一下了:函數
struct rq
:運行隊列,每一個CPU都對應一個;struct rt_rq
:實時運行隊列,用於管理實時任務的調度實體;struct sched_rt_entity
:實時調度實體,用於參與調度,功能與struct sched_entity
相似;struct task_group
:組調度結構體;struct rt_bandwidth
:帶寬控制結構體;老規矩,先上張圖,捋捋這些結構之間的關係吧:工具
CFS調度器
基本一致,區別在與CFS調度器
是經過紅黑樹來組織調度實體,而RT調度器
使用的是優先級隊列來組織實時調度實體;rt_rq
運行隊列,維護了100個優先級的隊列(鏈表),優先級0-99,從高到底;task_struct
和任務組task_group
都是經過內嵌調度實體的數據結構,來最終參與調度管理的;task_group
任務組調度,自身爲每一個CPU維護rt_rq
,用於存放本身的子任務或者子任務組,子任務組又能往下級聯,所以能夠構形成樹;上述結構體中,struct rq
和struct task_group
,在前文中都分析過。
下邊針對RT運行隊列相關的關鍵結構體,簡單註釋下吧:this
struct sched_rt_entity { struct list_head run_list; //用於加入到優先級隊列中 unsigned long timeout; //設置的時間超時 unsigned long watchdog_stamp; //用於記錄jiffies值 unsigned int time_slice; //時間片,100ms, unsigned short on_rq; unsigned short on_list; struct sched_rt_entity *back; //臨時用於從上往下鏈接RT調度實體時使用 #ifdef CONFIG_RT_GROUP_SCHED struct sched_rt_entity *parent; //指向父RT調度實體 /* rq on which this entity is (to be) queued: */ struct rt_rq *rt_rq; //RT調度實體所屬的實時運行隊列,被調度 /* rq "owned" by this entity/group: */ struct rt_rq *my_q; //RT調度實體所擁有的實時運行隊列,用於管理子任務或子組任務 #endif } __randomize_layout; /* Real-Time classes' related field in a runqueue: */ struct rt_rq { struct rt_prio_array active; //優先級隊列,100個優先級的鏈表,並定義了位圖,用於快速查詢 unsigned int rt_nr_running; //在RT運行隊列中全部活動的任務數 unsigned int rr_nr_running; #if defined CONFIG_SMP || defined CONFIG_RT_GROUP_SCHED struct { int curr; /* highest queued rt task prio */ //當前RT任務的最高優先級 #ifdef CONFIG_SMP int next; /* next highest */ //下一個要運行的RT任務的優先級,若是兩個任務都有最高優先級,則curr == next #endif } highest_prio; #endif #ifdef CONFIG_SMP unsigned long rt_nr_migratory; //任務沒有綁定在某個CPU上時,這個值會增減,用於任務遷移 unsigned long rt_nr_total; //用於overload檢查 int overloaded; //RT運行隊列過載,則將任務推送到其餘CPU struct plist_head pushable_tasks; //優先級列表,用於推送過載任務 #endif /* CONFIG_SMP */ int rt_queued; //表示RT運行隊列已經加入rq隊列 int rt_throttled; //用於限流操做 u64 rt_time; //累加的運行時,超出了本地rt_runtime時,則進行限制 u64 rt_runtime; //分配給本地池的運行時 /* Nests inside the rq lock: */ raw_spinlock_t rt_runtime_lock; #ifdef CONFIG_RT_GROUP_SCHED unsigned long rt_nr_boosted; //用於優先級翻轉問題解決 struct rq *rq; //指向運行隊列 struct task_group *tg; //指向任務組 #endif }; struct rt_bandwidth { /* nests inside the rq lock: */ raw_spinlock_t rt_runtime_lock; ktime_t rt_period; //時間週期 u64 rt_runtime; //一個時間週期內的運行時間,超過則限流,默認值爲0.95ms struct hrtimer rt_period_timer; //時間週期定時器 unsigned int rt_period_active; };
運行時的統計數據更新,是在update_curr_rt
函數中完成的:3d
update_curr_rt
函數功能,主要包括兩部分:
爲了更直觀的理解,下邊仍是來兩張圖片說明一下:code
sched_rt_avg_update
更新示意以下:對象
rq->age_stamp
:在CPU啓動後運行隊列首次運行時設置起始時間,後續週期性進行更新;rt_avg
:累計的RT平均運行時間,每0.5秒減半處理,用於計算CFS負載減去RT在CFS負載平衡中使用的時間百分比;RT調度器
與CFS調度器
的組調度基本相似,CFS調度器
的組調度請參考(四)Linux進程調度-組調度及帶寬控制
。
看一下RT調度器
組調度的組織關係圖吧:
task_group
的RT隊列,用於存放歸屬於該組的任務或子任務組,從而造成級聯的結構;看一下實際的組織示意圖:
請先參考(四)Linux進程調度-組調度及帶寬控制
。
RT調度器
在帶寬控制中,調度時間週期設置的爲1s,運行時間設置爲0.95s:
/* * period over which we measure -rt task CPU usage in us. * default: 1s */ unsigned int sysctl_sched_rt_period = 1000000; /* * part of the period that we allow rt tasks to run in us. * default: 0.95s */ int sysctl_sched_rt_runtime = 950000;
這兩個值能夠在用戶態經過/sys/fs/cgroup/cpu/rt_runtime_us
和/sys/fs/cgroup/cpu/rt_period_us
來進行設置。
看看函數調用流程:
init_rt_bandwidth
函數在建立分配RT任務組的時候調用,完成的工做是將rt_bandwidth
結構體的相關字段進行初始化:設置好時間週期rt_period
和運行時間限制rt_runtime
,都設置成默認值;/sys/fs/cgroup/cpu
下對應的節點進行設置rt_period
和rt_runtime
,最終調用的函數是tg_set_rt_bandwidth
,在該函數中會從下往上的遍歷任務組進行設置時間週期和限制的運行時間;enqueue_rt_entity
將RT調度實體入列時,最終觸發start_rt_bandwidth
函數執行,當高精度定時器到期時調用do_sched_rt_period_timer
函數;do_sched_rt_period_timer
函數,會去判斷該RT運行隊列的累計運行時間rt_time
與設置的限制運行時間rt_runtime
之間的大小關係,以肯定是否限流的操做。在這個函數中,若是已經進行了限流操做,會調用balance_time
來在多個CPU之間進行時間均衡處理,簡單點說,就是從其餘CPU的rt_rq隊列中勻出一部分時間增長到當前CPU的rt_rq隊列中,也就是將當前rt_rt運行隊列的限制運行時間rt_runtime
增長一部分,其餘CPU的rt_rq運行隊列限制運行時間減小一部分。來一張效果示意圖:
來一張前文的圖:
看一下RT調度器實例的代碼:
const struct sched_class rt_sched_class = { .next = &fair_sched_class, .enqueue_task = enqueue_task_rt, .dequeue_task = dequeue_task_rt, .yield_task = yield_task_rt, .check_preempt_curr = check_preempt_curr_rt, .pick_next_task = pick_next_task_rt, .put_prev_task = put_prev_task_rt, #ifdef CONFIG_SMP .select_task_rq = select_task_rq_rt, .set_cpus_allowed = set_cpus_allowed_common, .rq_online = rq_online_rt, .rq_offline = rq_offline_rt, .task_woken = task_woken_rt, .switched_from = switched_from_rt, #endif .set_curr_task = set_curr_task_rt, .task_tick = task_tick_rt, .get_rr_interval = get_rr_interval_rt, .prio_changed = prio_changed_rt, .switched_to = switched_to_rt, .update_curr = update_curr_rt, };
pick_next_task_rt
函數是調度器用於選擇下一個執行任務。流程以下:
CFS調度器
不一樣,RT調度器
會在多個CPU組成的domain
中,對任務進行pull/push
處理,也就是說,若是當前CPU的運行隊列中任務優先級都不高,那麼會考慮去其餘CPU運行隊列中找一個更高優先級的任務來執行,以確保按照優先級處理,此外當前CPU也會把任務推送到其餘更低優先級的CPU運行隊列上。_pick_next_task_rt
的處理邏輯比較簡單,若是實時調度實體是task
,則直接查找優先級隊列的位圖中,找到優先級最高的任務,而若是實時調度實體是task_group
,則還須要繼續往下進行遍歷查找;關於任務的pull/push
,linux提供了struct plist
,基於優先級的雙鏈表,其中任務的組織關係以下圖:
pull_rt_task
的大概示意圖以下:
pushable_tasks
鏈表中找優先級更高的任務來執行;當RT任務進行出隊入隊時,經過enqueue_task_rt/dequeue_task_rt
兩個接口來完成,調用流程以下:
enqueue_task_rt
和dequeue_task_rt
都會調用dequeue_rt_stack
接口,當請求的rt_se對應的是任務組時,會從頂部到請求的rt_se將調度實體出列;有點累了,收工了。