Linux 進程管理剖析--轉

地址:http://www.ibm.com/developerworks/cn/linux/l-linux-process-management/index.htmlhtml

Linux 是一種動態系統,可以適應不斷變化的計算需求。Linux 計算需求的表現是以進程 的通用抽象爲中心的。進程能夠是短時間的(從命令行執行的一個命令),也能夠是長期的(一種網絡服務)。所以,對進程及其調度進行通常管理就顯得極爲重要。linux

在用戶空間,進程是由進程標識符(PID)表示的。從用戶的角度來看,一個 PID 是一個數字值,可唯一標識一個進程。一個 PID 在進程的整個生命期間不會更改,但 PID 能夠在進程銷燬後被從新使用,因此對它們進行緩存並不見得老是理想的。shell

在用戶空間,建立進程能夠採用幾種方式。能夠執行一個程序(這會致使新進程的建立),也能夠在程序內,調用一個 fork 或 exec 系統調用。fork 調用會致使建立一個子進程,而 exec 調用則會用新程序代替當前進程上下文。接下來,我將對這幾種方法進行討論以便您能很好地理解它們的工做原理。緩存

在本文中,我將按照下面的順序展開對進程的介紹,首先展現進程的內核表示以及它們是如何在內核內被管理的,而後來看看進程建立和調度的各類方式(在一個或多個處理器上),最後介紹進程的銷燬。安全

進程表示

在 Linux 內核內,進程是由至關大的一個稱爲 task_struct 的結構表示的。此結構包含全部表示此進程所必需的數據,此外,還包含了大量的其餘數據用來統計(accounting)和維護與其餘進程的關係(父和子)。對 task_struct 的完整介紹超出了本文的範圍,清單 1 給出了 task_struct 的一小部分。這些代碼包含了本文所要探索的這些特定元素。task_struct位於 ./linux/include/linux/sched.h。網絡

清單 1. task_struct 的一小部分
struct task_struct {

	volatile long state;
	void *stack;
	unsigned int flags;

	int prio, static_prio;

	struct list_head tasks;

	struct mm_struct *mm, *active_mm;

	pid_t pid;
	pid_t tgid;

	struct task_struct *real_parent;

	char comm[TASK_COMM_LEN];

	struct thread_struct thread;

	struct files_struct *files;

	...

};

在清單 1 中,能夠看到幾個預料之中的項,好比執行的狀態、堆棧、一組標誌、父進程、執行的線程(能夠有不少)以及開放文件。我稍後會對其進行詳細說明,這裏只簡單加以介紹。state 變量是一些代表任務狀態的比特位。最多見的狀態有:TASK_RUNNING 表示進程正在運行,或是排在運行隊列中正要運行;TASK_INTERRUPTIBLE 表示進程正在休眠、TASK_UNINTERRUPTIBLE 表示進程正在休眠但不能叫醒;TASK_STOPPED 表示進程中止等等。這些標誌的完整列表能夠在 ./linux/include/linux/sched.h 內找到。架構

flags 定義了不少指示符,代表進程是否正在被建立(PF_STARTING)或退出(PF_EXITING),或是進程當前是否在分配內存(PF_MEMALLOC)。可執行程序的名稱(不包含路徑)佔用 comm(命令)字段。app

每一個進程都會被賦予優先級(稱爲 static_prio),但進程的實際優先級是基於加載以及其餘幾個因素動態決定的。優先級值越低,實際的優先級越高。ide

tasks 字段提供了連接列表的能力。它包含一個 prev 指針(指向前一個任務)和一個 next 指針(指向下一個任務)。函數

進程的地址空間由 mm 和 active_mm 字段表示。mm 表明的是進程的內存描述符,而 active_mm 則是前一個進程的內存描述符(爲改進上下文切換時間的一種優化)。

thread_struct 則用來標識進程的存儲狀態。此元素依賴於 Linux 在其上運行的特定架構,在 ./linux/include/asm-i386/processor.h 內有這樣的一個例子。在此結構內,能夠找到該進程自執行上下文切換後的存儲(硬件註冊表、程序計數器等)。

 

進程管理

最大進程數

在 Linux 內雖然進程都是動態分配的,但仍是須要考慮最大進程數。在內核內最大進程數是由一個稱爲max_threads 的符號表示的,它能夠在 ./linux/kernel/fork.c 內找到。能夠經過 /proc/sys/kernel/threads-max 的 proc 文件系統從用戶空間更改此值。

如今,讓咱們來看看如何在 Linux 內管理進程。在不少狀況下,進程都是動態建立並由一個動態分配的 task_struct 表示。一個例外是 init 進程自己,它老是存在並由一個靜態分配的 task_struct 表示。在 ./linux/arch/i386/kernel/init_task.c 內能夠找到這樣的一個例子。

Linux 內全部進程的分配有兩種方式。第一種方式是經過一個哈希表,由 PID 值進行哈希計算獲得;第二種方式是經過雙鏈循環表。循環表很是適合於對任務列表進行迭代。因爲列表是循環的,沒有頭或尾;可是因爲 init_task 老是存在,因此能夠將其用做繼續向前迭代的一個錨點。讓咱們來看一個遍歷當前任務集的例子。

任務列表沒法從用戶空間訪問,但該問題很容易解決,方法是以模塊形式向內核內插入代碼。清單 2 中所示的是一個很簡單的程序,它會迭代任務列表並會提供有關每一個任務的少許信息(namepid 和 parent 名)。注意,在這裏,此模塊使用 printk 來發出結果。要查看具體的結果,能夠經過 cat 實用工具(或實時的 tail -f /var/log/messages)查看 /var/log/messages 文件。next_task 函數是 sched.h 內的一個宏,它簡化了任務列表的迭代(返回下一個任務的 task_struct 引用)。

清單 2. 發出任務信息的簡單內核模塊(procsview.c)
#include <linux/kernel.h>
#include <linux/module.h>
#include <linux/sched.h>

int init_module( void )
{
  /* Set up the anchor point */
  struct task_struct *task = &init_task;

  /* Walk through the task list, until we hit the init_task again */
  do {

    printk( KERN_INFO "*** %s [%d] parent %s\n",
		task->comm, task->pid, task->parent->comm );

  } while ( (task = next_task(task)) != &init_task );

  return 0;

}

void cleanup_module( void )
{
  return;
}

能夠用清單 3 所示的 Makefile 編譯此模塊。在編譯時,能夠用 insmod procsview.ko 插入模塊對象,也能夠用 rmmod procsview 刪除它。

清單 3. 用來構建內核模塊的 Makefile
obj-m += procsview.o

KDIR := /lib/modules/$(shell uname -r)/build
PWD := $(shell pwd)

default:
	$(MAKE) -C $(KDIR) SUBDIRS=$(PWD) modules

插入後,/var/log/messages 可顯示輸出,以下所示。從中能夠看到,這裏有一個空閒任務(稱爲 swapper)和 init 任務(pid 1)。

Nov 12 22:19:51 mtj-desktop kernel: [8503.873310] *** swapper [0] parent swapper
Nov 12 22:19:51 mtj-desktop kernel: [8503.904182] *** init [1] parent swapper
Nov 12 22:19:51 mtj-desktop kernel: [8503.904215] *** kthreadd [2] parent swapper
Nov 12 22:19:51 mtj-desktop kernel: [8503.904233] *** migration/0 [3] parent kthreadd
...

注意,還能夠標識當前正在運行的任務。Linux 維護一個稱爲 current 的符號,表明的是當前運行的進程(類型是 task_struct)。若是在init_module 的尾部插入以下這行代碼:

printk( KERN_INFO, "Current task is %s [%d], current->comm, current->pid );

會看到:

Nov 12 22:48:45 mtj-desktop kernel: [10233.323662] Current task is insmod [6538]

注意到,當前的任務是 insmod,這是由於 init_module 函數是在 insmod 命令執行的上下文運行的。current 符號實際指的是一個函數(get_current)並可在一個與 arch 有關的頭部中找到(好比 ./linux/include/asm-i386/current.h 內找到)。

 

進程建立

系統調用函數

您可能已經看到過系統調用的模式了。在不少狀況下,系統調用都被命名爲 sys_* 並提供某些初始功能以實現調用(例如錯誤檢查或用戶空間的行爲)。實際的工做經常會委派給另一個名爲 do_* 的函數。

讓咱們不妨親自看看如何從用戶空間建立一個進程。用戶空間任務和內核任務的底層機制是一致的,由於兩者最終都會依賴於一個名爲 do_fork 的函數來建立新進程。在建立內核線程時,內核會調用一個名爲 kernel_thread 的函數(參見 ./linux/arch/i386/kernel/process.c),此函數執行某些初始化後會調用 do_fork

建立用戶空間進程的狀況與此相似。在用戶空間,一個程序會調用 fork,這會致使對名爲sys_fork 的內核函數的系統調用(參見 ./linux/arch/i386/kernel/process.c)。函數關係如圖 1 所示。

圖 1. 負責建立進程的函數的層次結構

負責建立進程的函數的層次結構

從圖 1 中,能夠看到 do_fork 是進程建立的基礎。能夠在 ./linux/kernel/fork.c 內找到 do_fork 函數(以及合做函數 copy_process)。

do_fork 函數首先調用 alloc_pidmap,該調用會分配一個新的 PID。接下來,do_fork 檢查調試器是否在跟蹤父進程。若是是,在clone_flags 內設置 CLONE_PTRACE 標誌以作好執行 fork 操做的準備。以後 do_fork 函數還會調用 copy_process,向其傳遞這些標誌、堆棧、註冊表、父進程以及最新分配的 PID。

新的進程在 copy_process 函數內做爲父進程的一個副本建立。此函數能執行除啓動進程以外的全部操做,啓動進程在以後進行處理。copy_process 內的第一步是驗證 CLONE 標誌以確保這些標誌是一致的。若是不一致,就會返回 EINVAL 錯誤。接下來,詢問 Linux Security Module (LSM) 看當前任務是否能夠建立一個新任務。要了解有關 LSM 在 Security-Enhanced Linux (SELinux) 上下文中的更多信息,請參見 參考資料 小節。

接下來,調用 dup_task_struct 函數(在 ./linux/kernel/fork.c 內),這會分配一個新 task_struct 並將當前進程的描述符複製到其內。在新的線程堆棧設置好後,一些狀態信息也會被初始化,而且會將控制返回給 copy_process。控制回到 copy_process 後,除了其餘幾個限制和安全檢查以外,還會執行一些常規管理,包括在新 task_struct 上的各類初始化。以後,會調用一系列複製函數來複制此進程的各個方面,好比複製開放文件描述符(copy_files)、複製符號信息(copy_sighand 和 copy_signal)、複製進程內存(copy_mm)以及最終複製線程(copy_thread)。

以後,這個新任務會被指定給一個處理程序,同時對容許執行進程的處理程序進行額外的檢查(cpus_allowed)。新進程的優先級從父進程的優先級繼承後,執行一小部分額外的常規管理,並且控制也會被返回給 do_fork。在此時,新進程存在但還沒有運行。do_fork 函數經過調用wake_up_new_task 來修復此問題。此函數(可在 ./linux/kernel/sched.c 內找到)初始化某些調度程序的常規管理信息,將新進程放置在運行隊列以內,而後將其喚醒以便執行。最後,一旦返回至 do_fork,此 PID 值即被返回給調用程序,進程完成。

 

進程調度

存在於 Linux 的進程也可經過 Linux 調度程序被調度。雖然調度程序超出了本文的討論範圍,但 Linux 調度程序維護了針對每一個優先級別的一組列表,其中保存了 task_struct 引用。任務經過 schedule 函數(在 ./linux/kernel/sched.c 內)調用,它根據加載及進程執行歷史決定最佳進程。在本文的 參考資料 小節能夠了解有關 Linux 版本 2.6 調度程序的更多信息。

 

進程銷燬

進程銷燬能夠經過幾個事件驅動 — 經過正常的進程結束、經過信號或是經過對 exit 函數的調用。無論進程如何退出,進程的結束都要藉助對內核函數 do_exit(在 ./linux/kernel/exit.c 內)的調用。此過程如圖 2 所示。

圖 2. 實現進程銷燬的函數的層次結構

實現進程銷燬的函數的層次結構

do_exit 的目的是將全部對當前進程的引用從操做系統刪除(針對全部沒有共享的資源)。銷燬的過程先要經過設置 PF_EXITING 標誌來代表進程正在退出。內核的其餘方面會利用它來避免在進程被刪除時還試圖處理此進程。將進程從它在其生命期間得到的各類資源分離開來是經過一系列調用實現的,好比 exit_mm(刪除內存頁)和 exit_keys(釋放線程會話和進程安全鍵)。do_exit 函數執行釋放進程所需的各類統計,這以後,經過調用 exit_notify 執行一系列通知(好比,告知父進程其子進程正在退出)。最後,進程狀態被更改成 PF_DEAD,而且還會調用 schedule 函數來選擇一個將要執行的新進程。請注意,若是對父進程的通知是必需的(或進程正在被跟蹤),那麼任務將不會完全消失。若是無需任何通知,就能夠調用 release_task 來實際收回由進程使用的那部份內存。

 

結束語

Linux 還在不斷演進,其中一個有待進一步創新和優化的領域就是進程管理。在堅持 UNIX 原理的同時,Linux 也在不斷突破。新的處理器架構、對稱多處理(SMP)以及虛擬化都將促使在內核領域內取得新進展。其中的一個例子就是 Linux 版本 2.6 中引入的新的 O(1) 調度程序,它爲具備大量任務的系統提供了可伸縮性。另一個例子就是使用 Native POSIX Thread Library (NPTL) 更新了的線程模型,與以前的 LinuxThreads 模型相比,它帶來了更爲有效的線程處理。有關這些創新及其前景的更多信息,請參見 參考資料

相關文章
相關標籤/搜索