Linux內核分析方法談

本文來自 http://blog.csdn.net/ouyang_linux007/article/details/7422346linux

  Linux的最大的好處之一就是它的源碼公開。同時,公開的核心源碼也吸引着無數的電腦愛好者和程序員;他們把解讀和分析Linux的核心源碼做爲本身的最大興趣,把修改Linux源碼和改造Linux系統做爲本身對計算機技術追求的最大目標。
Linux內核源碼是很具吸引力的,特別是當你弄懂了一個分析了很久都沒搞懂的問題;或者是被你修改過了的內核,順利經過編譯,一切運行正常的時候。那 種成就感真是油然而生!並且,對內核的分析,除了出自對技術的狂熱追求以外,這種使人生畏的勞動所帶來的回報也是很是使人着迷的,這也正是它擁有衆多追隨 者的主要緣由:
  • 首先,你能夠從中學到不少的計算機的底層知識,如後面將講到的系統的引導和硬件提供的中斷機制等;其它,象虛擬存儲的實現機制,多任務機制,系統保護機制等等,這些都是非都源碼不能體會的。
  • 同 時,你還將從操做系統的總體結構中,體會總體設計在軟件設計中的分量和做用,以及一些宏觀設計的方法和技巧:Linux的內核爲上層應用提供一個與具體硬 件不相關的平臺;同時在內核內部,它又把代碼分爲與體系結構和硬件相關的部分,和可移植的部分;再例如,Linux雖然不是微內核的,但他把大部分的設備 驅動處理成相對獨立的內核模塊,這樣減少了內核運行的開銷,加強了內核代碼的模塊獨立性。
  • 並且你還能從對內核源碼的分析中,體會到它在解決某個具體細節問題時,方法的巧妙:如後面將分析到了的Linux經過Botoom_half機制來加快系統對中斷的處理。
  • 最 重要的是:在源碼的分析過程當中,你將會被一點一點地、潛移默化地專業化。一個專業的程序員,老是把代碼的清晰性,兼容性,可移植性放在很重要的位置。他們 老是經過定義大量的宏,來加強代碼的清晰度和可讀性,而又不增長編譯後的代碼長度和代碼的運行效率;他們老是在編碼的同時,就考慮到了之後的代碼維護和升 級。 甚至,只要分析百分之一的代碼後,你就會深入地體會到,什麼樣的代碼纔是一個專業的程序員寫的,什麼樣的代碼是一個業餘愛好者寫的。而這一點是任何沒有真 正分析過標準代碼的人都沒法體會到的。
然而,因爲內核代碼的冗長,和內核體系結構的龐雜,因此分析內核也是一個很艱難,很須要毅力的事;在缺少指導和交流的狀況下,尤爲如此。只有方法正確,才能事半功倍。正是基於這種考慮,做者但願經過此文能給你們一些借鑑和啓迪。

因爲本人所進行的分析都是基於2.2.5版本的內核;因此,若是沒有特別說明,如下分析都是基於i386單處理器的2.2.5版本的Linux內核。全部源文件均是相對於目錄/usr/src/linux的。

方法之一:從何入手 

要分析Linux內核源碼,首先必須找到各個模塊的位置,也即要弄懂源碼的文件組織形式。雖然對於有經驗的高手而言,這個不是很難;但對於不少初級的Linux愛好者,和那些對源碼分析頗有興趣但接觸很少的人來講,這仍是頗有必要的。

一、Linux核心源程序一般都安裝在/usr/src/linux下,並且它有一個很是簡單的編號約定:任何偶數的核心(的二個數爲偶數,例如2.0.30)都是一個穩定地發行的核心,而任何奇數的核心(例如2.1.42)都是一個開發中的核心。

二、核心源程序的文件按樹形結構進行組織,在源程序樹的最上層,即目錄/usr/src/linux下有這樣一些目錄和文件: 

◆ COPYING: GPL版權申明。對具備GPL版權的源代碼改動而造成的程序,或使用GPL工具產生的程序,具備使用GPL發表的義務,如公開源代碼; 

◆ CREDITS: 光榮榜。對Linux作出過很大貢獻的一些人的信息; 

◆ MAINTAINERS: 維護人員列表,對當前版本的內核各部分都有誰負責; 

◆ Makefile: 第一個Makefile文件。用來組織內核的各模塊,記錄了個模塊間的相互這間的聯繫和依託關係,編譯時使用;仔細閱讀各子目錄下的Makefile文件對弄清各個文件這間的聯繫和依託關係頗有幫助;

◆ ReadMe: 核心及其編譯配置方法簡單介紹; 

◆ Rules.make: 各類Makefilemake所使用的一些共同規則; 

◆ REPORTING-BUGS:有關報告Bug 的一些內容; 

● Arch/ :arch子目錄包括了全部和體系結構相關的核心代碼。它的每個子目錄都表明一種支持的體系結構,例如i386就是關於intel cpu及與之相兼容體系結構的子目錄。PC機通常都基於此目錄;

● Include/: include子目錄包括編譯核心所須要的大部分頭文件。與平臺無關的頭文件在 include/linux子目錄下,與 intel cpu相關的頭文件在include/asm-i386子目錄下,而include/scsi目錄則是有關scsi設備的頭文件目錄;

● Init/: 這個目錄包含核心的初始化代碼(注:不是系統的引導代碼),包含兩個文件main.c和Version.c,這是研究核心如何工做的好的起點之一。 

● Mm/:這個目錄包括全部獨立於 cpu 體系結構的內存管理代碼,如頁式存儲管理內存的分配和釋放等;而和體系結構相關的內存管理代碼則位於arch/*/mm/,例如arch/i386/mm/Fault.c;

● Kernel/:主要的核心代碼,此目錄下的文件實現了大多數linux系統的內核函數,其中最重要的文件當屬sched.c;一樣,和體系結構相關的代碼在arch/*/kernel中;

● Drivers/: 放置系統全部的設備驅動程序;每種驅動程序又各佔用一個子目錄:如,/block 下爲塊設備驅動程序,好比ide(ide.c)。若是你但願查看全部可能包含文件系統的設備是如何初始化的,你能夠看 drivers/block/genhd.c中的device_setup()。它不只初始化硬盤,也初始化網絡,由於安裝nfs文件系統的時候須要網 絡;

● Documentation/: 文檔目錄,沒有內核代碼,只是一套有用的文檔,惋惜都是English的,看看應該有用的哦; 

● Fs/: 全部的文件系統代碼和各類類型的文件操做代碼,它的每個子目錄支持一個文件系統, 例如fat和ext2; 

● Ipc/: 這個目錄包含核心的進程間通信的代碼; 

● Lib/: 放置核心的庫代碼; 

● Net/: 核心與網絡相關的代碼; 

● Modules/: 模塊文件目錄,是個空目錄,用於存放編譯時產生的模塊目標文件; 

● Scripts/: 描述文件,腳本,用於對核心的配置; 

通常,在每一個子目錄下,都有一個 Makefile 和一個Readme 文件,仔細閱讀這兩個文件,對內核源碼的理解頗有用。 

對Linux內核源碼的分析,有幾個很好的入口點:一個就是系統的引導和初始化,即從機器加電到系統核心的運行;另一個就是系統調用,系統調用是用戶 程序或操做調用核心所提供的功能的接口。對於那些對硬件比較熟悉的愛好者,從系統的引導入手進行分析,可能來的容易一些;而從系統調用下口,則可能更合適 於那些在dos或Uinx、Linux下有過C編程經驗的高手。這兩點,在後面還將介紹到。

方法之二:以程序流程爲線索,一線串珠

從表面上看,Linux的源碼就象一團扎亂無章的亂麻,其實它是一個組織得有條有理的蛛網。要把整個結構分析清楚,除了找出線頭,還得理順各個部分之間的關係,有條不紊的一點一點的分析。

所謂以程序流程爲線索、一線串珠,就是指根據程序的執行流程,把程序執行過程所涉及到的代碼分析清楚。這種方法最典型的應用有兩個:一是系統的初始化過程;二是應用程序的執行流程:從程序的裝載,到運行,一直到程序的退出。

爲了簡便起見,聽從按部就班的原理,現就係統的初始化過程來具體的介紹這種方法。系統的初始化流程包括:系統引導,實模式下的初始化,保護模式下的初始化共三個部分。下面將一一介紹。

linux系統的常見引導方式有兩種:Lilo引導和Loadin引導;同時linux內核也自帶了一個bootsect-loader。因爲它只能實現 linux的引導,不像前兩個那樣具備很大的靈活性(lilo可實現多重引導、loadin可在dos下引導linux),因此在普通應用場合實際上不多 使用bootsect-loader。固然,bootsect-loader也具備它本身的優勢:短小沒有多餘的代碼、附帶在內核源碼中、是內核源碼的有 機組成部分,等等。

bootsect-loader在內和源碼中對應的程序是 /Arch/i386/boot/bootsect.S。下面將主要是針對此文件進行的分析。
  1. 幾個相關文件: 

    <1> /Arch/i386/boot/bootsect.S 

    <2> /include/linux/config.h 

    <3> /include/asm/boot.h 

    <4> /include/linux/autoconf.h 
  2. 引導過程分析: 

    對於Intel x86 PC , 開啓電源後, 機器就會開始執行ROM BIOS的一系列系統測試動做,包括檢查RAM,keyboard,顯示器,軟硬磁盤等等。執行完bios的系統測試以後,緊接着控制權會轉移給ROM中 的啓動程序(ROM bootstrap routine);這個程序會將磁盤上的第0軌第0扇區(叫boot sector或MBR , 系統的引導程序就放在此處)讀入內存中,並放到自0x07C0:0x0000開始的512個字節處;而後處理機將跳到此處開始執行這一引導程序;也即裝入 MBR中的引導程序後, CS:IP = 0x07C0:0x0000 。加電後處理機運行在與8086相兼容的實模式下。 

    若是要用 bootsect-loader進行系統引導,則必須把bootsect.S編譯鏈接後對應的二進制代碼置於MBR; 當ROM BIOS 把bootsect.S編譯鏈接後對應的二進制代碼裝入內存後,機器的控制權就徹底轉交給bootsect; 也就是說,bootsect將是第一個被讀入內存中並執行的程序。

    Bootsect接管機器控制權後,將依次進行如下一些動做: 


    1. 首先,bootsect將它"本身"(自位置0x07C0:0x0000開始的512個字節)從被ROM BIOS載入的地址0x07C0:0x0000處搬到0x9000:0000處; 這一任務由bootsect.S的前十條指令完成;第十一條指令「jmpi go,INITSEG」則把機器跳轉到「新」的bootsect的「jmpi go,INITSEG」後的那條指令「go: mov di,#0x4000-12」;以後,繼續執行bootsect的剩下的代碼;在bootsect.S中定義了幾個常量:

    BOOTSEG = 0x07C0 bios 載入 MBR的約定位置的段址; 

    INITSEG = 0x9000 bootsect.S的前十條指令將本身搬到此處(段址) 

    SETUPSEG =0x9020 裝入Setup.S的段址 

    SYSSEG =0x1000 系統區段址 

    對於這些常量可參見/include/asm/boot.h中的定義;這些常量在下面的分析中將會常常用到; 

    2.以0x9000:0x4000-12爲棧底,創建本身的棧區;其中0x9000:0x4000-12到0x9000:0x4000的一十二個字節預留做磁盤參數表區; 

    3. 在0x9000:0x4000-12到0x9000:0x4000的一十二個預留字節中創建新的磁盤參數表,之因此叫「新」的磁盤參數表,是相對於 bios創建的磁盤參數表而言的。因爲設計者考慮到有些老的bios不能準確地識別磁盤「每一個磁道的扇區數」,從而致使bios創建的磁盤參數表妨礙磁盤 的最高性能發揮,因此,設計者就在bios創建的磁盤參數表的基礎上經過枚舉法測試,試圖創建準確的「新」的磁盤參數表(這是在後繼步驟中完成的);並把 參數表的位置由原來的0x0000:0x0078搬到0x9000:0x4000-12;且修改老的磁盤參數表區使之指向新的磁盤參數表;

    4. 接下來就到了load_setup子過程;它調用0x13中斷的第2號服務;把第0道第2扇區開始的連續的setup_sects (爲常量4)個扇區讀到緊鄰bootsect的內存區;,即0x9000:0x0200開始的2048個字節;而這四個扇區的內容便是 /arch/i386/boot/setup.S編譯鏈接後對應的二進制代碼; 也就是說,若是要用bootsect-loader進行系統引導,不只必須把bootsect.S編譯鏈接後對應的二進制代碼置於MBR,並且還得把 setup.S編譯鏈接後對應的二進制代碼置於緊跟MBR後的連續的四個扇區中;固然,因爲setup.S對應的可執行碼是由bootsect裝載的,所 以,在咱們的這個項目中能夠經過修改bootsect來根據須要隨意地放置setup.S對應的可執行碼; 

    5.load_setup子過程的惟一出口是probe_loop子過程;該過程經過枚舉法測試磁盤「每一個磁道的扇區數」; 

    6. 接下來幾個子過程比較清晰易懂:打印咱們熟悉的「Loading」;讀入系統到0x1000:0x0000; 關掉軟驅馬達;根據的5步測出的「每一個磁道的扇區數」肯定磁盤類型;最後跳轉到0x9000:0x0200,即setup.S對應的可執行碼的入口,將機 器控制權轉交setup.S;整個bootsect代碼運行完畢;
  3. 引導過程執行完後的內存印象圖:
  4. 引導過程執行完後的內存印象圖:


出於簡便考慮,在此分析中,我忽略了對大內核的處理的分析,由於對大內核的處理,只是此引導過程當中的一個很小的部分,並不影響對總體的把握。完成了系統的引導後,系統將進入到初始化處理階段。系統的初始化分爲實模式和保護模式兩部分。

II、實模式下的初始化 

實模式下的初始化,主要是指從內核引導成功後,到進入保護模式以前系統所作的一些處理。在內核源碼中對應的程序是 /Arch/i386/boot/setup.S;如下部分主要是針對此文件進行的分析。這部分的分析主要是要弄懂它的處理流程和INITSEG (9000:0000)段參數表的創建,此參數表包含了不少硬件參數,這些都是之後進行保護模式下初始化,以及核心創建的基礎。

1. 幾個其它相關文件: 

<1> /Arch/i386/boot/bootsect.S 

<2> /include/linux/config.h 

<3> /include/asm/boot.h 

<4> /include/ asm/segment.h 

<5> /include/linux/version.h 

<6> /include/linux/compile.h 

2. 實模式下的初始化過程分析: 





INITSEG(9000:0000)段參數表:(參見Include/linux/tty.h)

參數名ios

偏移量(段址均爲0x9000) 長度Byte

參考文件程序員

PARAM_CURSOR_POS 0x0000 2 Arch/i386/boot/video.S
extended mem Size 0x0002 2 Arch/i386/boot/setup.S

PARAM_VIDEO_PAGE編程

0x0004 2 Arch/i386/boot/video.S
PARAM_VIDEO_MODE 0x0006 1 Arch/i386/boot/video.S
PARAM_VIDEO_COLS 0x0007 1 Arch/i386/boot/video.S
沒用 0x0008 2 Include/linux/tty.h
PARAM_VIDEO_EGA_BX 0x000a 2 Arch/i386/boot/video.S
沒用 0x000c 2 Include/linux/tty.h
PARAM_VIDEO_LINES 0x000e 1 Arch/i386/boot/video.S
PARAM_HAVE_VGA 0x000f 1 Arch/i386/boot/video.S
PARAM_FONT_POINTS 0x0010 2 Arch/i386/boot/video.S
PARAM_LFB_WIDTH 0x0012 2 Arch/i386/boot/video.S
PARAM_LFB_HEIGHT 0x0014 2 Arch/i386/boot/video.S
PARAM_LFB_DEPTH 0x0016 2 Arch/i386/boot/video.S
PARAM_LFB_BASE 0x0018 4 Arch/i386/boot/video.S
PARAM_LFB_SIZE 0x001c 4 Arch/i386/boot/video.S
暫未用① 0x0020 4 Include/linux/tty.h
PARAM_LFB_LINELENGTH 0x0024 2 Arch/i386/boot/video.S
PARAM_LFB_COLORS 0x0026 6 Arch/i386/boot/video.S
暫未用② 0x002c 2 Arch/i386/boot/video.S
PARAM_VESAPM_SEG 0x002e 2 Arch/i386/boot/video.S
PARAM_VESAPM_OFF 0x0030 2 Arch/i386/boot/video.S
PARAM_LFB_PAGES 0x0032 2 Arch/i386/boot/video.S
保留 0x0034--0x003f   Include/linux/tty.h
APM BIOS Version③ 0x0040 2 Arch/i386/boot/setup.S
BIOS code segment 0x0042 2 Arch/i386/boot/setup.S
BIOS entry offset 0x0044 4 Arch/i386/boot/setup.S
BIOS 16 bit code seg 0x0048 2 Arch/i386/boot/setup.S
BIOS data segment 0x004a 2 Arch/i386/boot/setup.S
支持32位標誌④ 0x004c 2 Arch/i386/boot/setup.S
BIOS code seg length 0x004e 4 Arch/i386/boot/setup.S
BIOS data seg length 0x0052 2 Arch/i386/boot/setup.S
hd0 參數 0x0080 16 Arch/i386/boot/setup.S
hd0 參數 0x0090 16 Arch/i386/boot/setup.S
PS/2 device 標誌⑤ 0x01ff 1 Arch/i386/boot/setup.S


* 注: ① Include/linux/tty.h : CL_MAGIC and CL_OFFSET here

    1. Include/linux/tty.h :
unsigned char rsvd_size; /* 0x2c */ unsigned char rsvd_pos; /* 0x2d */ 

③ 0表示沒有APM BIOS 

④ 0x0002置位表示支持32位模式 

⑤ 0表示沒有,0x0aa表示有鼠標器 

III、保護模式下的初始化 

保護模式下的初始化,是指處理機進入保護模式後到運行系統第一個內核程序過程當中系統所作的一些處理。保護模式下的初始化在內核源碼中對應的程序是 /Arch/i386/boot/compressed/head.S 和 /Arch/i386/KERNEL/head.S ;如下部分主要是針對這兩個文件進行的分析。
  1. 幾個相關文件: 

    <1.> /Arch/i386/boot/compressed/head.S 

    <2.> /Arch/i386/KERNEL/head.S 

    <3.> //Arch/i386/boot/compressed/MISC.c 

    <4.> /Arch/i386/boot/setup.S 

    <5.> /include/ asm/segment.h 

    <6.> /arch/i386/kernel/traps.c 

    <7.> /include/i386/desc.h 

    <8.> /include/asm-i386/processor.h 

  2. 保護模式下的初始化過程分析:

    1、/Arch/i386/KERNEL/head.S流程: 

  3. 保護模式下的初始化過程分析:

    1、/Arch/i386/KERNEL/head.S流程:


  

2、/Arch/i386/boot/compressed/head.S流程: 

  1. 從流程圖中能夠看到,保護模式下的初始化主要乾了這樣幾件事:
      1. 解壓內核到0x100000處、
      2. 創建頁目錄和pg0頁表並啓動分頁功能(即虛存管理功能)、
      3. 保存實模式下測到的硬件信息到empty_zero_page、初始化命令緩存區、
      4. 檢測cpu類型、檢查協處理器、
      5. 從新創建gdt全局描述符表、和中斷描述附表idt;
  2. 從頁目錄和pg0頁表能夠看出,0&#0;4M物理內存被用做系統區,它被映射到系統段線性空間的0&#0;4M和3G&#0;3G+4M;即系統能夠經過訪問這兩個段來訪問實際的0&#0;4M物理內存,也就是系統所在的區域;
  3. 本 來在實模式下初始化時已經創建了全局描述符表gdt,而此處從新創建全局描述符表gdt則主要是出於兩個緣由:一個就是若內核是大內核bzimag,則以 前創建的gdt,可能已經在解壓時被覆蓋掉了因此,在這個源碼文件中均只採用相對轉移指令jxx nf或jxx nb;二是之前創建的gdt是創建在實地址方式下的,而如今則是在啓用保護虛擬地址方式以後創建的,也即如今的gdt是創建在邏輯地址(即線性地址)上 的;
  4. 每次創建新的gdt後和啓用保護虛擬地址方式後都必須從新裝載系統棧和從新初始化各段寄存器:cs,ds,es,fs,gs;
  5. 從實模式下的初始化和保護模式下的初始化過程能夠看出,linux系統由實模式進入到保護模式的過程大體以下:



6.因爲分頁機制只能在保護模式下啓動,不能在實模式下啓動,因此第一步是必要的;又由於在386保護模式下gdt和idt是創建在邏輯地址(線性地址)上的,因此第三步也是必要的;
7.通過實模式和保護模式下的初始後,主要系統數據分佈以下: 

初始後主要系統數據分佈表
位置 系統數據 大小
0x101000 頁目錄swapper_pg_dir 4K
0x102000 頁表pg0 4K
0x103000 empty_bad_page 4K
0x104000 empty_bad_page_table 4K
0x105000 empty_zero_page 4K
0x105000 系統硬件參數 2K
0x105800 命令緩衝區 2K
0x106000 全局描述附表gdt_table 4192B

從上面對Linux系統的初始化過程的分析能夠看出,以程序執行流程爲線索、一線串珠,就是按照程序的執行前後順序,弄懂程序執行的各個階段所進行的處理,及其各階段之間的相互聯繫。而流程圖應該是這種分析方法最合適的表達工具。

事實上,以程序執行流程爲線索,是分析任何源代碼都首選的方法。因爲操做系統的特殊性,光用這種方法是遠遠不夠的。固然用這種方法來分析系統的初始化過程或用戶進程的執行流程應該說是頗有效的。
爲了您的安全,請只打開來源可靠的網址
相關文章
相關標籤/搜索