Linux內核線程kernel thread詳解--Linux進程的管理與調度（十）

時間 2020-07-10

標籤 linux 內核線程 kernel thread 詳解進程管理調度欄目 Linux 简体版

原文原文鏈接

內核線程

爲何須要內核線程

Linux內核能夠看做一個服務進程(管理軟硬件資源，響應用戶進程的種種合理以及不合理的請求)。html

內核須要多個執行流並行，爲了防止可能的阻塞，支持多線程是必要的。node

內核線程就是內核的分身，一個分身能夠處理一件特定事情。內核線程的調度由內核負責，一個內核線程處於阻塞狀態時不影響其餘的內核線程，由於其是調度的基本單位。linux

這與用戶線程是不同的。由於內核線程只運行在內核態編程

所以，它只能使用大於PAGE_OFFSET（傳統的x86_32上是3G）的地址空間。c#

內核線程概述

內核線程是直接由內核自己啓動的進程。內核線程其實是將內核函數委託給獨立的進程，它與內核中的其餘進程」並行」執行。內核線程常常被稱之爲內核守護進程。多線程

他們執行下列任務app

週期性地將修改的內存頁與頁來源塊設備同步
若是內存頁不多使用，則寫入交換區
管理延時動做,　如２號進程接手內核進程的建立
實現文件系統的事務日誌

內核線程主要有兩種類型electron

線程啓動後一直等待，直至內核請求線程執行某一特定操做。
線程啓動後按週期性間隔運行，檢測特定資源的使用，在用量超出或低於預置的限制時採起行動。

內核線程由內核自身生成，其特色在於ide

它們在CPU的管態執行，而不是用戶態。
它們只能夠訪問虛擬地址空間的內核部分（高於TASK_SIZE的全部地址），但不能訪問用戶空間

內核線程的進程描述符task_struct

task_struct進程描述符中包含兩個跟進程地址空間相關的字段mm, active_mm函數

struct task_struct
{
    // ...
    struct mm_struct *mm;
    struct mm_struct *avtive_mm;
    //...
};

大多數計算機上系統的所有虛擬地址空間分爲兩個部分: 供用戶態程序訪問的虛擬地址空間和供內核訪問的內核空間。每當內核執行上下文切換時, 虛擬地址空間的用戶層部分都會切換, 以便當前運行的進程匹配, 而內核空間不會進行切換。

對於普通用戶進程來講，mm指向虛擬地址空間的用戶空間部分，而對於內核線程，mm爲NULL。

這位優化提供了一些餘地, 可遵循所謂的惰性TLB處理(lazy TLB handing)。active_mm主要用於優化，因爲內核線程不與任何特定的用戶層進程相關，內核並不須要倒換虛擬地址空間的用戶層部分，保留舊設置便可。因爲內核線程以前多是任何用戶層進程在執行，故用戶空間部分的內容本質上是隨機的，內核線程決不能修改其內容，故將mm設置爲NULL，同時若是切換出去的是用戶進程，內核將原來進程的mm存放在新內核線程的active_mm中，由於某些時候內核必須知道用戶空間當前包含了什麼。

爲何沒有mm指針的進程稱爲惰性TLB進程?

假如內核線程以後運行的進程與以前是同一個, 在這種狀況下, 內核並不須要修改用戶空間地址表。地址轉換後備緩衝器(即TLB)中的信息仍然有效。只有在內核線程以後, 執行的進程是與此前不一樣的用戶層進程時, 才須要切換(並對應清除TLB數據)。

內核線程和普通的進程間的區別在於內核線程沒有獨立的地址空間，mm指針被設置爲NULL；它只在內核空間運行，歷來不切換到用戶空間去；而且和普通進程同樣，能夠被調度，也能夠被搶佔。

內核線程的建立

建立內核線程接口的演變

內核線程能夠經過兩種方式實現：

古老的接口 kernel_create和daemonize

將一個函數傳遞給kernel_thread建立並初始化一個task，該函數接下來負責幫助內核調用daemonize已轉換爲內核守護進程，daemonize隨後完成一些列操做, 如該函數釋放其父進程的全部資源，否則這些資源會一直鎖定直到線程結束。阻塞信號的接收, 將init用做守護進程的父進程

更加如今的方法kthead_create和kthread_run

建立內核更經常使用的方法是輔助函數kthread_create，該函數建立一個新的內核線程。最初線程是中止的，須要使用wake_up_process啓動它。

使用kthread_run，與kthread_create不一樣的是，其建立新線程後當即喚醒它，其本質就是先用kthread_create建立一個內核線程，而後經過wake_up_process喚醒它

2號進程kthreadd的誕生

早期的kernel_create和daemonize接口

在早期的內核中, 提供了kernel_create和daemonize接口, 可是這種機制操做複雜並且將全部的任務交給內核去完成。

可是這種機制低效並且繁瑣, 將全部的操做塞給內核, 咱們建立內核線程的初衷不原本就是爲了內核分擔工做, 減小內核的開銷的麼

Workqueue機制

所以在linux-2.6之後, 提供了更加方便的接口kthead_create和kthread_run, 同時將內核線程的建立操做延後, 交給一個工做隊列workqueue, 參見 http://lxr.linux.no/linux+v2.6.13/kernel/kthread.c#L21

Linux中的workqueue機制就是爲了簡化內核線程的建立。經過kthread_create並不真正建立內核線程, 而是將建立工做create work插入到工做隊列helper_wq中, 隨後調用workqueue的接口就能建立內核線程。而且能夠根據當前系統CPU的個數建立線程的數量，使得線程處理的事務可以並行化。workqueue是內核中實現簡單而有效的機制，他顯然簡化了內核daemon的建立，方便了用戶的編程.

工做隊列（workqueue）是另一種將工做推後執行的形式.工做隊列能夠把工做推後，交由一個內核線程去執行，也就是說，這個下半部分能夠在進程上下文中執行。最重要的就是工做隊列容許被從新調度甚至是睡眠。
具體的信息, 請參見
Linux workqueue工做原理

2號進程kthreadd

可是這種方法依然看起來不夠優美, 咱們何不把這種建立內核線程的工做交給一個特殊的內核線程來作呢？

因而linux-2.6.22引入了kthreadd進程, 並隨後演變爲2號進程, 它在系統初始化時同1號進程一塊兒被建立(固然確定是經過kernel_thread), 參見rest_init函數, 並隨後演變爲建立內核線程的真正建造師, 參見kthreadd和kthreadd函數, 它會循環的是查詢工做鏈表static LIST_HEAD(kthread_create_list);中是否有須要被建立的內核線程, 而咱們的經過kthread_create執行的操做, 只是在內核線程任務隊列kthread_create_list中增長了一個create任務, 而後會喚醒kthreadd進程來執行真正的建立操做
內核線程會出如今系統進程列表中, 可是在ps的輸出中進程名command由方括號包圍, 以便與普通進程區分。

以下圖所示, 咱們能夠看到系統中, 全部內核線程都用[]標識, 並且這些進程父進程id均是2, 而2號進程kthreadd的父進程是0號進程

使用ps -eo pid,ppid,command

kernel_thread

kernel_thread是最基礎的建立內核線程的接口, 它經過將一個函數直接傳遞給內核來建立一個進程, 建立的進程運行在內核空間, 而且與其餘進程線程共享內核虛擬地址空間

kernel_thread的實現經歷過不少變革
早期的kernel_thread執行更底層的操做, 直接建立了task_struct並進行初始化,

引入了kthread_create和kthreadd 2號進程後, kernel_thread的實現也由統一的_do_fork(或者早期的do_fork)託管實現

早期實現

早期的內核中, kernel_thread並非使用統一的do_fork或者_do_fork這一封裝好的接口實現的, 而是使用更底層的細節

參見
http://lxr.free-electrons.com/source/kernel/fork.c?v=2.4.37#L613

咱們能夠看到它內部調用了更加底層的arch_kernel_thread建立了一個線程

arch_kernel_thread

其具體實現請參見
http://lxr.free-electrons.com/ident?v=2.4.37;i=arch_kernel_thread

可是這種方式建立的線程並不適合運行，所以內核提供了daemonize函數, 其聲明在include/linux/sched.h中

//  http://lxr.free-electrons.com/source/include/linux/sched.h?v=2.4.37#L800
extern void daemonize(void);

定義在kernel/sched.c

http://lxr.free-electrons.com/source/kernel/sched.c?v=2.4.37#L1326

主要執行以下操做

該函數釋放其父進程的全部資源，否則這些資源會一直鎖定直到線程結束。
阻塞信號的接收
將init用做守護進程的父進程

咱們能夠看到早期內核的不少地方使用了這個接口, 好比

能夠參見
http://lxr.free-electrons.com/ident?v=2.4.37;i=daemonize

咱們將了這麼多kernel_thread, 可是咱們並不提倡咱們使用它, 由於這個是底層的建立內核線程的操做接口, 使用kernel_thread在內核中執行大量的操做, 雖然建立的代價已經很小了, 可是對於追求性能的linux內核來講還不能忍受

所以咱們只能說kernel_thread是一個古老的接口, 內核中的有些地方仍然在使用該方法, 將一個函數直接傳遞給內核來建立內核線程

新版本的實現
因而linux-3.x下以後, 有了更好的實現, 那就是

延後內核的建立工做, 將內核線程的建立工做交給一個內核線程來作, 即kthreadd 2號進程

可是在kthreadd還沒建立以前, 咱們只能經過kernel_thread這種方式去建立, 同時kernel_thread的實現也改成由_do_fork(早期內核中是do_fork)來實現, 參見kernel/fork.c

pid_t kernel_thread(int (*fn)(void *), void *arg, unsigned long flags)
{
    return _do_fork(flags|CLONE_VM|CLONE_UNTRACED, (unsigned long)fn,
            (unsigned long)arg, NULL, NULL, 0);
}

kthread_create

struct task_struct *kthread_create_on_node(int (*threadfn)(void *data),
                                           void *data,
                                          int node,
                                          const char namefmt[], ...);

#define kthread_create(threadfn, data, namefmt, arg...) \
       kthread_create_on_node(threadfn, data, NUMA_NO_NODE, namefmt, ##arg)

建立內核更經常使用的方法是輔助函數kthread_create，該函數建立一個新的內核線程。最初線程是中止的，須要使用wake_up_process啓動它。

kthread_run

/**
 * kthread_run - create and wake a thread.
 * @threadfn: the function to run until signal_pending(current).
 * @data: data ptr for @threadfn.
 * @namefmt: printf-style name for the thread.
 *
 * Description: Convenient wrapper for kthread_create() followed by
 * wake_up_process().  Returns the kthread or ERR_PTR(-ENOMEM).
 */
#define kthread_run(threadfn, data, namefmt, ...)                          \
({                                                                         \
    struct task_struct *__k                                            \
            = kthread_create(threadfn, data, namefmt, ## __VA_ARGS__); \
    if (!IS_ERR(__k))                                                  \
            wake_up_process(__k);                                      \
    __k;                                                               \
})

內核線程的退出

線程一旦啓動起來後，會一直運行，除非該線程主動調用do_exit函數，或者其餘的進程調用kthread_stop函數，結束線程的運行。

int kthread_stop(struct task_struct *thread);

kthread_stop() 經過發送信號給線程。

若是線程函數正在處理一個很是重要的任務，它不會被中斷的。固然若是線程函數永遠不返回而且不檢查信號，它將永遠都不會中止。

在執行kthread_stop的時候，目標線程必須沒有退出，不然會Oops。緣由很容易理解，當目標線程退出的時候，其對應的task結構也變得無效，kthread_stop引用該無效task結構就會出錯。

爲了不這種狀況，須要確保線程沒有退出，其方法如代碼中所示：

thread_func()
{
    // do your work here
    // wait to exit
    while(!thread_could_stop())
    {
           wait();
    }
}

exit_code()
{
     kthread_stop(_task);   //發信號給task，通知其能夠退出了
}

這種退出機制很溫和，一切盡在thread_func()的掌控之中，線程在退出時能夠從容地釋放資源，而不是莫名其妙地被人「暗殺」。