Read the fucking source code!
--By 魯迅A picture is worth a thousand words.
--By 高爾基說明:linux
RCU, Read-Copy-Update
,是Linux內核中的一種同步機制。
RCU
常被描述爲讀寫鎖的替代品,它的特色是讀者並不須要直接與寫者進行同步,讀者與寫者也能併發的執行。RCU
的目標就是最大程度來減小讀者側的開銷,所以也經常使用於對讀者性能要求高的場景。api
優勢:架構
缺點:併發
來一張圖片來描述下大致的操做吧:less
rcu_read_lock/rcu_read_unlock
來標定臨界區;updater
)在更新臨界資源的時候,拷貝一份副本做爲基礎進行修改,當全部讀者離開臨界區後,把指向舊臨界資源的指針指向更新後的副本,並對舊資源進行回收處理;上述的描述比較簡單,RCU的實現很複雜。本文先對RCU來一個初印象,並結合接口進行實例分析,後續文章再逐層深刻到背後的實現原理。開始吧!異步
RCU
的基本思想是將更新Update
操做分爲兩個部分:1)Removal
移除;2)Reclamation
回收。
直白點來理解就是,臨界資源被多個讀者讀取,寫者在拷貝副本修改後進行更新時,第一步須要先把舊的臨界資源數據移除(修改指針指向),第二步須要把舊的數據進行回收(好比kfree
)。工具
所以,從功能上分爲如下三個基本的要素:Reader/Updater/Reclaimer
,三者之間的交互以下圖:性能
Reader測試
rcu_read_lock
和rcu_read_unlock
來界定讀者的臨界區,訪問受RCU
保護的數據時,須要始終在該臨界區域內訪問;rcu_dereference
來獲取RCU-protected
指針;RCU
時,rcu_read_lock/rcu_read_unlock
之間不能使用能夠睡眠的代碼;Updater.net
rcu_assign_pointer
來移除舊的指針指向,指向更新後的臨界資源;synchronize_rcu
或call_rcu
來啓動Reclaimer
,對舊的臨界資源進行回收,其中synchronize_rcu
表示同步等待回收,call_rcu
表示異步回收;Reclaimer
Grace Period
);用來提供上述描述的功能,RCU
基於三種機制來實現。
Publish-Subscribe Mechanism
訂閱機制是個什麼概念,來張圖:
Updater
與Reader
相似於Publisher
和Subsriber
的關係;Updater
更新內容後調用接口進行發佈,Reader
調用接口讀取發佈內容;那麼這種訂閱機制,須要作點什麼來保證呢?來看一段僞代碼:
/* Definiton of global structure */ 1 struct foo { 2 int a; 3 int b; 4 int c; 5 }; 6 struct foo *gp = NULL; 7 8 /* . . . */ 9 /* =========Updater======== */ 10 p = kmalloc(sizeof(*p), GFP_KERNEL); 11 p->a = 1; 12 p->b = 2; 13 p->c = 3; 14 gp = p; 15 16 /* =========Reader======== */ 17 p = gp; 18 if (p != NULL) { 19 do_something_with(p->a, p->b, p->c); 20 }
乍一看彷佛問題不大,Updater進行賦值更新,Reader進行讀取和其餘處理。然而,因爲存在編譯亂序和執行亂序的問題,上述代碼的執行順序不見得就是代碼的順序,好比在某些架構(DEC Alpha
)中,讀者的操做部分,可能在p賦值以前就操做了do_something_with()
。
爲了解決這個問題,Linux提供了rcu_assign_pointer/rcu_dereference
宏來確保執行順序,Linux內核也基於rcu_assign_pointer/rcu_dereference
宏進行了更高層的封裝,好比list
, hlist
,所以,在內核中有三種被RCU保護的場景:1)指針;2)list鏈表;3)hlist哈希鏈表。
針對這三種場景,Publish-Subscribe
接口以下表:
Wait For Pre-Existing RCU Readers to Complete
Reclaimer須要對舊的臨界資源進行回收,那麼問題來了,何時進行呢?所以RCU
須要提供一種機制來確保以前的RCU讀者所有都已經完成,也就是退出了rcu_read_lock/rcu_read_unlock
標定的臨界區後,才能進行回收處理。
Removal
操做後,調用synchronize_rcu
,標誌着更新結束並開始進入回收階段;synchronize_rcu
調用後,此時可能還有新的讀者來讀取臨界資源(更新後的內容),可是,Grace Period
只等待Pre-Existing
的讀者,也就是在圖中的Reader-4, Reader-5
。只要這些以前就存在的RCU讀者退出臨界區後,意味着寬限期的結束,所以就進行回收處理工做了;synchronize_rcu
並非在最後一個Pre-Existing
RCU讀者離開臨界區後立馬就返回,它可能存在一個調度延遲;Maintain Multiple Versions of Recently Updated Objects
從2.2.2節
能夠看出,在Updater進行更新後,在Reclaimer進行回收以前,是會存在新舊兩個版本的臨界資源的,只有在synchronize_rcu
返回後,Reclaimer對舊的臨界資源進行回收,最後剩下一個版本。顯然,在有多個Updater時,臨界資源的版本會更多。
仍是來張圖吧,分別以指針和鏈表爲例:
synchronize_rcu
開始爲臨界點,分別維護不一樣版本的臨界資源;是時候來一波fucking sample code
了。
synchronize_rcu
同步回收和call_rcu
異步回收兩種機制;#include <linux/module.h> #include <linux/init.h> #include <linux/slab.h> #include <linux/kthread.h> #include <linux/rcupdate.h> #include <linux/delay.h> struct foo { int a; int b; int c; struct rcu_head rcu; struct list_head list; }; static struct foo *g_pfoo = NULL; LIST_HEAD(g_rcu_list); struct task_struct *rcu_reader_t; struct task_struct *rcu_updater_t; struct task_struct *rcu_reader_list_t; struct task_struct *rcu_updater_list_t; /* 指針的Reader操做 */ static int rcu_reader(void *data) { struct foo *p = NULL; int cnt = 100; while (cnt--) { msleep(100); rcu_read_lock(); p = rcu_dereference(g_pfoo); pr_info("%s: a = %d, b = %d, c = %d\n", __func__, p->a, p->b, p->c); rcu_read_unlock(); } return 0; } /* 回收處理操做 */ static void rcu_reclaimer(struct rcu_head *rh) { struct foo *p = container_of(rh, struct foo, rcu); pr_info("%s: a = %d, b = %d, c = %d\n", __func__, p->a, p->b, p->c); kfree(p); } /* 指針的Updater操做 */ static int rcu_updater(void *data) { int value = 1; int cnt = 100; while (cnt--) { struct foo *old; struct foo *new = (struct foo *)kzalloc(sizeof(struct foo), GFP_KERNEL); msleep(200); old = g_pfoo; *new = *g_pfoo; new->a = value; new->b = value + 1; new->c = value + 2; rcu_assign_pointer(g_pfoo, new); pr_info("%s: a = %d, b = %d, c = %d\n", __func__, new->a, new->b, new->c); call_rcu(&old->rcu, rcu_reclaimer); value++; } return 0; } /* 鏈表的Reader操做 */ static int rcu_reader_list(void *data) { struct foo *p = NULL; int cnt = 100; while (cnt--) { msleep(100); rcu_read_lock(); list_for_each_entry_rcu(p, &g_rcu_list, list) { pr_info("%s: a = %d, b = %d, c = %d\n", __func__, p->a, p->b, p->c); } rcu_read_unlock(); } return 0; } /* 鏈表的Updater操做 */ static int rcu_updater_list(void *data) { int cnt = 100; int value = 1000; while (cnt--) { msleep(100); struct foo *p = list_first_or_null_rcu(&g_rcu_list, struct foo, list); struct foo *q = (struct foo *)kzalloc(sizeof(struct foo), GFP_KERNEL); *q = *p; q->a = value; q->b = value + 1; q->c = value + 2; list_replace_rcu(&p->list, &q->list); pr_info("%s: a = %d, b = %d, c = %d\n", __func__, q->a, q->b, q->c); synchronize_rcu(); kfree(p); value++; } return 0; } /* module初始化 */ static int rcu_test_init(void) { struct foo *p; rcu_reader_t = kthread_run(rcu_reader, NULL, "rcu_reader"); rcu_updater_t = kthread_run(rcu_updater, NULL, "rcu_updater"); rcu_reader_list_t = kthread_run(rcu_reader_list, NULL, "rcu_reader_list"); rcu_updater_list_t = kthread_run(rcu_updater_list, NULL, "rcu_updater_list"); g_pfoo = (struct foo *)kzalloc(sizeof(struct foo), GFP_KERNEL); p = (struct foo *)kzalloc(sizeof(struct foo), GFP_KERNEL); list_add_rcu(&p->list, &g_rcu_list); return 0; } /* module清理工做 */ static void rcu_test_exit(void) { kfree(g_pfoo); kfree(list_first_or_null_rcu(&g_rcu_list, struct foo, list)); kthread_stop(rcu_reader_t); kthread_stop(rcu_updater_t); kthread_stop(rcu_reader_list_t); kthread_stop(rcu_updater_list_t); } module_init(rcu_test_init); module_exit(rcu_test_exit); MODULE_AUTHOR("Loyen"); MODULE_LICENSE("GPL");
爲了證實沒有騙人,貼出在開發板上運行的輸出log,以下圖:
下邊的這些接口,不能更核心了。
a. rcu_read_lock() //標記讀者臨界區的開始 b. rcu_read_unlock() //標記讀者臨界區的結束 c. synchronize_rcu() / call_rcu() //等待Grace period結束後進行資源回收 d. rcu_assign_pointer() //Updater使用這個宏對受RCU保護的指針進行賦值 e. rcu_dereference() //Reader使用這個宏來獲取受RCU保護的指針
基於核心的API,擴展了其餘相關的API,以下,再也不詳述:
RCU list traversal:: list_entry_rcu list_entry_lockless list_first_entry_rcu list_next_rcu list_for_each_entry_rcu list_for_each_entry_continue_rcu list_for_each_entry_from_rcu list_first_or_null_rcu list_next_or_null_rcu hlist_first_rcu hlist_next_rcu hlist_pprev_rcu hlist_for_each_entry_rcu hlist_for_each_entry_rcu_bh hlist_for_each_entry_from_rcu hlist_for_each_entry_continue_rcu hlist_for_each_entry_continue_rcu_bh hlist_nulls_first_rcu hlist_nulls_for_each_entry_rcu hlist_bl_first_rcu hlist_bl_for_each_entry_rcu RCU pointer/list update:: rcu_assign_pointer list_add_rcu list_add_tail_rcu list_del_rcu list_replace_rcu hlist_add_behind_rcu hlist_add_before_rcu hlist_add_head_rcu hlist_add_tail_rcu hlist_del_rcu hlist_del_init_rcu hlist_replace_rcu list_splice_init_rcu list_splice_tail_init_rcu hlist_nulls_del_init_rcu hlist_nulls_del_rcu hlist_nulls_add_head_rcu hlist_bl_add_head_rcu hlist_bl_del_init_rcu hlist_bl_del_rcu hlist_bl_set_first_rcu RCU:: Critical sections Grace period Barrier rcu_read_lock synchronize_net rcu_barrier rcu_read_unlock synchronize_rcu rcu_dereference synchronize_rcu_expedited rcu_read_lock_held call_rcu rcu_dereference_check kfree_rcu rcu_dereference_protected bh:: Critical sections Grace period Barrier rcu_read_lock_bh call_rcu rcu_barrier rcu_read_unlock_bh synchronize_rcu [local_bh_disable] synchronize_rcu_expedited [and friends] rcu_dereference_bh rcu_dereference_bh_check rcu_dereference_bh_protected rcu_read_lock_bh_held sched:: Critical sections Grace period Barrier rcu_read_lock_sched call_rcu rcu_barrier rcu_read_unlock_sched synchronize_rcu [preempt_disable] synchronize_rcu_expedited [and friends] rcu_read_lock_sched_notrace rcu_read_unlock_sched_notrace rcu_dereference_sched rcu_dereference_sched_check rcu_dereference_sched_protected rcu_read_lock_sched_held SRCU:: Critical sections Grace period Barrier srcu_read_lock call_srcu srcu_barrier srcu_read_unlock synchronize_srcu srcu_dereference synchronize_srcu_expedited srcu_dereference_check srcu_read_lock_held SRCU: Initialization/cleanup:: DEFINE_SRCU DEFINE_STATIC_SRCU init_srcu_struct cleanup_srcu_struct All: lockdep-checked RCU-protected pointer access:: rcu_access_pointer rcu_dereference_raw RCU_LOCKDEP_WARN rcu_sleep_check RCU_NONIDLE
好吧,羅列這些API有點然並卵。
RCU這個神祕的面紗算是初步揭開了,再往裏邊扒衣服的話,就會顯得有些難了,畢竟RCU背後的實現機制確實挺困難的。那麼,問題來了,要不要作一個扒衣見君者呢,敬請關注吧。
Documentation/RCU
What is RCU, Fundamentally?
What is RCU? Part 2: Usage
RCU part 3: the RCU API
Introduction to RCU
歡迎關注公衆號,持續以圖文形式分享內核機制文章