深度解析Linux根文件系統的掛載過程

在前面的文章中介紹《Linux操做系統啓動過程》，而Linux系統的根文件系統（root file system）的掛載過程則是其中一個重要環節，下面這部份內容來自於網絡，經整理分享以下，但願能給這部份知識點比較迷茫的朋友一點幫助。html

1、rootfs的種類

總的來講，rootfs分爲兩種：虛擬rootfs和真實rootfs。如今kernel的發展趨勢是將更多的功能放到用戶空間完成。以保持內核的精簡。虛擬rootfs也是各linux發行廠商廣泛採用的一種方式。能夠將一部份的初始化工做放在虛擬的rootfs裏完成。而後切換到真實的文件系統。
在虛擬rootfs的發展過程當中。又有如下幾個版本：linux

initramfs: Initramfs是在 kernel 2.5中引入的技術，實際上它的含義就是：在內核鏡像中附加一個cpio包，這個cpio包中包含了一個小型的文件系統，當內核啓動時，內核將這個cpio包解開，而且將其中包含的文件系統釋放到rootfs中，內核中的一部分初始化代碼會放到這個文件系統中，做爲用戶層進程來執行。這樣帶來的明顯的好處是精簡了內核的初始化代碼，並且使得內核的初始化過程更容易定製。這種這種方式的rootfs是包含在kernel image之中的。

cpio-initrd: cpio格式的rootfs

image-initrd: 傳統格式的rootfs

2、rootfs文件系統的掛載過程

這裏說的rootfs不一樣於上面分析的rootfs。這裏指的是系統初始化時的根結點。即/結點。它是其於內存的rootfs文件系統。這部份以前在>和文件系統中已經分析過。爲了知識的連貫性這裏再重複一次。shell

 
         Start_kernel()àmnt_init(): 
        
         void 
         __init mnt_init( 
         void 
         ) 
        
         { 
        
         …… 
        
         …… 
        
         init_rootfs(); 
        
         init_mount_tree(); 
        
         }

Init_rootfs的代碼以下：網絡

 
         int 
         __init init_rootfs( 
         void 
         ) 
        
         { 
        
         int 
         err; 
        
         err = bdi_init(&ramfs_backing_dev_info); 
        
         if 
         (err) 
        
         return 
         err; 
        
         err = register_filesystem(&rootfs_fs_type); 
        
         if 
         (err) 
        
         bdi_destroy(&ramfs_backing_dev_info); 
        
         return 
         err; 
        
         }

這個函數很簡單，就是註冊了rootfs的文件系統。
init_mount_tree()代碼以下：less

 
         static 
         void 
         __init init_mount_tree( 
         void 
         ) 
        
         { 
        
         struct 
         vfsmount *mnt; 
        
         struct 
         mnt_namespace *ns; 
        
         struct 
         path root; 
        
         mnt = do_kern_mount( 
         "rootfs" 
         , 0,  
         "rootfs" 
         , NULL); 
        
         if 
         (IS_ERR(mnt)) 
        
         panic( 
         "Can't create rootfs" 
         ); 
        
         ns = kmalloc( 
         sizeof 
         (*ns), GFP_KERNEL); 
        
         if 
         (!ns) 
        
         panic( 
         "Can't allocate initial namespace" 
         ); 
        
         atomic_set(&ns->count, 1); 
        
         INIT_LIST_HEAD(&ns->list); 
        
         init_waitqueue_head(&ns->poll); 
        
         ns->event = 0; 
        
         list_add(&mnt->mnt_list, &ns->list); 
        
         ns->root = mnt; 
        
         mnt->mnt_ns = ns; 
        
         init_task.nsproxy->mnt_ns = ns; 
        
         get_mnt_ns(ns); 
        
         root.mnt = ns->root; 
        
         root.dentry = ns->root->mnt_root; 
        
         set_fs_pwd(current->fs, &root); 
        
         set_fs_root(current->fs, &root); 
        
         }

在這裏，將rootfs文件系統掛載。它的掛載點默認爲」/」.最後切換進程的根目錄和當前目錄爲」/」.這也就是根目錄的由來。不過這裏只是初始化。等掛載完具體的文件系統以後，通常都會將根目錄切換到具體的文件系統。因此在系統啓動以後，用mount命令是看不到rootfs的掛載信息的.運維

3、虛擬文件系統的掛載

根目錄已經掛上去了，能夠掛載具體的文件系統了.
在start_kernel()àrest_init()àkernel_init():async

 
         static 
         int 
         __init kernel_init( 
         void 
         * unused) 
        
         { 
        
         …… 
        
         …… 
        
         do_basic_setup(); 
        
         if 
         (!ramdisk_execute_command) 
        
         ramdisk_execute_command =  
         "/init" 
         ; 
        
         if 
         (sys_access(( 
         const 
         char 
         __user *) ramdisk_execute_command, 0) != 0) { 
        
         ramdisk_execute_command = NULL; 
        
         prepare_namespace(); 
        
         } 
        
         /* 
        
         * Ok, we have completed the initial bootup, and 
        
         * we're essentially up and running. Get rid of the 
        
         * initmem segments and start the user-mode stuff.. 
        
         */ 
        
         init_post(); 
        
         return 
         0; 
        
         }

do_basic_setup()是一個很關鍵的函數，全部直接編譯在kernel中的模塊都是由它啓動的。代碼片斷以下：函數

 
         static 
         void 
         __init do_basic_setup( 
         void 
         ) 
        
         { 
        
         /* drivers will send hotplug events */ 
        
         init_workqueues(); 
        
         usermodehelper_init(); 
        
         driver_init(); 
        
         init_irq_proc(); 
        
         do_initcalls(); 
        
         }

Do_initcalls()用來啓動全部在__initcall_start和__initcall_end段的函數，而靜態編譯進內核的modules也會將其入口放置在這段區間裏。
跟根文件系統相關的初始化函數都會由rootfs_initcall（）所引用。注意到有如下初始化函數：post

 
         rootfs_initcall(populate_rootfs);

也就是說會在系統初始化的時候會調用populate_rootfs進行初始化。代碼以下：atom

 
         static 
         int 
         __init populate_rootfs( 
         void 
         ) 
        
         { 
        
         char 
         *err = unpack_to_rootfs(__initramfs_start, 
        
         __initramfs_end - __initramfs_start, 0); 
        
         if 
         (err) 
        
         panic(err); 
        
         if 
         (initrd_start) { 
        
         #ifdef CONFIG_BLK_DEV_RAM 
        
         int 
         fd; 
        
         printk(KERN_INFO  
         "checking if image is initramfs..." 
         ); 
        
         err = unpack_to_rootfs(( 
         char 
         *)initrd_start, 
        
         initrd_end - initrd_start, 1); 
        
         if 
         (!err) { 
        
         printk( 
         " it is\n" 
         ); 
        
         unpack_to_rootfs(( 
         char 
         *)initrd_start, 
        
         initrd_end - initrd_start, 0); 
        
         free_initrd(); 
        
         return 
         0; 
        
         } 
        
         printk( 
         "it isn't (%s); looks like an initrd\n" 
         , err); 
        
         fd = sys_open( 
         "/initrd.image" 
         , O_WRONLY|O_CREAT, 0700); 
        
         if 
         (fd >= 0) { 
        
         sys_write(fd, ( 
         char 
         *)initrd_start, 
        
         initrd_end - initrd_start); 
        
         sys_close(fd); 
        
         free_initrd(); 
        
         } 
        
         #else 
        
         printk(KERN_INFO  
         "Unpacking initramfs..." 
         ); 
        
         err = unpack_to_rootfs(( 
         char 
         *)initrd_start, 
        
         initrd_end - initrd_start, 0); 
        
         if 
         (err) 
        
         panic(err); 
        
         printk( 
         " done\n" 
         ); 
        
         free_initrd(); 
        
         #endif 
        
         } 
        
         return 
         0; 
        
         }

unpack_to_rootfs：顧名思義就是解壓包，並將其釋放至rootfs。它實際上有兩個功能，一個是釋放包，一個是查看包，看其是否屬於cpio結構的包。功能選擇是根據最後的一個參數來區分的.
在這個函數裏，對應咱們以前分析的三種虛擬根文件系統的狀況。一種是跟kernel融爲一體的initramfs.在編譯kernel的時候，經過連接腳本將其存放在__initramfs_start至__initramfs_end的區域。這種狀況下，直接調用unpack_to_rootfs將其釋放到根目錄.若是不是屬於這種形式的。也就是__initramfs_start和__initramfs_end的值相等，長度爲零。不會作任何處理。退出.

對應後兩種狀況。從代碼中看到，必需要配製CONFIG_BLK_DEV_RAM纔會支持image-initrd。不然全當成cpio-initrd的形式處理。
對因而cpio-initrd的狀況。直接將其釋放到根目錄。對因而image-initrd的狀況。將其釋放到/initrd.image.最後將initrd內存區域納入夥伴系統。這段內存就能夠由操做系統來作其它的用途了。
接下來，內核對這幾種狀況又是怎麼處理的呢？不要着急。往下看：

回到kernel_init()這個函數：

 
         static 
         int 
         __init kernel_init( 
         void 
         * unused) 
        
         { 
        
         ……. 
        
         ……. 
        
         do_basic_setup(); 
        
         /* 
        
         * check if there is an early userspace init.  If yes, let it do all 
        
         * the work 
        
         */ 
        
         if 
         (!ramdisk_execute_command) 
        
         ramdisk_execute_command =  
         "/init" 
         ; 
        
         if 
         (sys_access(( 
         const 
         char 
         __user *) ramdisk_execute_command, 0) != 0) { 
        
         ramdisk_execute_command = NULL; 
        
         prepare_namespace(); 
        
         } 
        
         /* 
        
         * Ok, we have completed the initial bootup, and 
        
         * we're essentially up and running. Get rid of the 
        
         * initmem segments and start the user-mode stuff.. 
        
         */ 
        
         init_post(); 
        
         return 
         0; 
        
         }

ramdisk_execute_command:在kernel解析引導參數的時候使用。若是用戶指定了init文件路徑，即便用了「init=」，就會將這個參數值存放到這裏。
若是沒有指定init文件路徑。默認爲/init
對應於前面一段的分析，咱們知道，對於initramdisk和cpio-initrd的狀況，都會將虛擬根文件系統釋放到根目錄。若是這些虛擬文件系統裏有/init這個文件。就會轉入到init_post()。
Init_post()代碼以下：

 
         static 
         int 
         noinline 
         init_post( 
         void 
         ) 
        
         { 
        
         free_initmem(); 
        
         unlock_kernel(); 
        
         mark_rodata_ro(); 
        
         system_state = SYSTEM_RUNNING; 
        
         numa_default_policy(); 
        
         if 
         (sys_open(( 
         const 
         char 
         __user *)  
         "/dev/console" 
         , O_RDWR, 0) 
        
         ( 
         void 
         ) sys_dup(0); 
        
         ( 
         void 
         ) sys_dup(0); 
        
         if 
         (ramdisk_execute_command) { 
        
         run_init_process(ramdisk_execute_command); 
        
         printk(KERN_WARNING  
         "Failed to execute %s\n" 
         , 
        
         ramdisk_execute_command); 
        
         } 
        
         /* 
        
         * We try each of these until one succeeds. 
        
         * 
        
         * The Bourne shell can be used instead of init if we are 
        
         * trying to recover a really broken machine. 
        
         */ 
        
         if 
         (execute_command) { 
        
         run_init_process(execute_command); 
        
         printk(KERN_WARNING  
         "Failed to execute %s.  Attempting " 
        
         "defaults...\n" 
         , execute_command); 
        
         } 
        
         run_init_process( 
         "/sbin/init" 
         ); 
        
         run_init_process( 
         "/etc/init" 
         ); 
        
         run_init_process( 
         "/bin/init" 
         ); 
        
         run_init_process( 
         "/bin/sh" 
         ); 
        
         panic( 
         "No init found.  Try passing init= option to kernel." 
         ); 
        
         }

從代碼中能夠看中，會依次執行指定的init文件，若是失敗，就會執行/sbin/init, /etc/init, /bin/init, /bin/sh
注意的是，run_init_process在調用相應程序運行的時候，用的是kernel_execve。也就是說調用進程會替換當前進程。只要上述任意一個文件調用成功，就不會返回到這個函數。若是上面幾個文件都沒法執行。打印出沒有找到init文件的錯誤。
對於image-hdr或者是虛擬文件系統中沒有包含 /init的狀況，會由prepare_namespace()處理。代碼以下：

 
         void 
         __init prepare_namespace( 
         void 
         ) 
        
         { 
        
         int 
         is_floppy; 
        
         if 
         (root_delay) { 
        
         printk(KERN_INFO  
         "Waiting %dsec before mounting root device...\n" 
         , 
        
         root_delay); 
        
         ssleep(root_delay); 
        
         } 
        
         /* wait for the known devices to complete their probing */ 
        
         while 
         (driver_probe_done() != 0) 
        
         msleep(100); 
        
         //mtd的處理 
        
         md_run_setup(); 
        
         if 
         (saved_root_name[0]) { 
        
         root_device_name = saved_root_name; 
        
         if 
         (! 
         strncmp 
         (root_device_name,  
         "mtd" 
         , 3)) { 
        
         mount_block_root(root_device_name, root_mountflags); 
        
         goto 
         out; 
        
         } 
        
         ROOT_DEV = name_to_dev_t(root_device_name); 
        
         if 
         ( 
         strncmp 
         (root_device_name,  
         "/dev/" 
         , 5) == 0) 
        
         root_device_name += 5; 
        
         } 
        
         if 
         (initrd_load()) 
        
         goto 
         out; 
        
         /* wait for any asynchronous scanning to complete */ 
        
         if 
         ((ROOT_DEV == 0) && root_wait) { 
        
         printk(KERN_INFO  
         "Waiting for root device %s...\n" 
         , 
        
         saved_root_name); 
        
         while 
         (driver_probe_done() != 0 || 
        
         (ROOT_DEV = name_to_dev_t(saved_root_name)) == 0) 
        
         msleep(100); 
        
         } 
        
         is_floppy = MAJOR(ROOT_DEV) == FLOPPY_MAJOR; 
        
         if 
         (is_floppy && rd_doload && rd_load_disk(0)) 
        
         ROOT_DEV = Root_RAM0; 
        
         mount_root(); 
        
         out: 
        
         sys_mount( 
         "." 
         ,  
         "/" 
         , NULL, MS_MOVE, NULL); 
        
         sys_chroot( 
         "." 
         ); 
        
         }

這裏有幾個比較有意思的處理，首先用戶能夠用root=來指定根文件系統。它的值保存在saved_root_name中。若是用戶指定了以mtd開始的字串作爲它的根文件系統。就會直接去掛載。這個文件是mtdblock的設備文件。
不然將設備結點文件轉換爲ROOT_DEV即設備節點號
而後，轉向initrd_load()執行initrd預處理後，再將具體的根文件系統掛載。
注意到，在這個函數末尾。會調用sys_mount()來移動當前文件系統掛載點到」/」目錄下。而後將根目錄切換到當前目錄。這樣，根文件系統的掛載點就成爲了咱們在用戶空間所看到的」/」了.
對於其它根文件系統的狀況，會先通過initrd的處理。即

 
         int 
         __init initrd_load( 
         void 
         ) 
        
         { 
        
         if 
         (mount_initrd) { 
        
         create_dev( 
         "/dev/ram" 
         , Root_RAM0); 
        
         /* 
        
         * Load the initrd data into /dev/ram0. Execute it as initrd 
        
         * unless /dev/ram0 is supposed to be our actual root device, 
        
         * in that case the ram disk is just set up here, and gets 
        
         * mounted in the normal path. 
        
         */ 
        
         if 
         (rd_load_image( 
         "/initrd.image" 
         ) && ROOT_DEV != Root_RAM0) { 
        
         sys_unlink( 
         "/initrd.image" 
         ); 
        
         handle_initrd(); 
        
         return 
         1; 
        
         } 
        
         } 
        
         sys_unlink( 
         "/initrd.image" 
         ); 
        
         return 
         0; 
        
         }

創建一個ROOT_RAM)的設備節點，並將/initrd/.image釋放到這個節點中，/initrd.image的內容，就是咱們以前分析的image-initrd。
若是根文件設備號不是ROOT_RAM0( 用戶指定的根文件系統不是/dev/ram0就會轉入到handle_initrd()
若是當前根文件系統是/dev/ram0.將其直接掛載就行了。

handle_initrd（）代碼以下：

 
         static 
         void 
         __init handle_initrd( 
         void 
         ) 
        
         { 
        
         int 
         error; 
        
         int 
         pid; 
        
         real_root_dev = new_encode_dev(ROOT_DEV); 
        
         create_dev( 
         "/dev/root.old" 
         , Root_RAM0); 
        
         /* mount initrd on rootfs' /root */ 
        
         mount_block_root( 
         "/dev/root.old" 
         , root_mountflags & ~MS_RDONLY); 
        
         sys_mkdir( 
         "/old" 
         , 0700); 
        
         root_fd = sys_open( 
         "/" 
         , 0, 0); 
        
         old_fd = sys_open( 
         "/old" 
         , 0, 0); 
        
         /* move initrd over / and chdir/chroot in initrd root */ 
        
         sys_chdir( 
         "/root" 
         ); 
        
         sys_mount( 
         "." 
         ,  
         "/" 
         , NULL, MS_MOVE, NULL); 
        
         sys_chroot( 
         "." 
         ); 
        
         /* 
        
         * In case that a resume from disk is carried out by linuxrc or one of 
        
         * its children, we need to tell the freezer not to wait for us. 
        
         */ 
        
         current->flags |= PF_FREEZER_SKIP; 
        
         pid = kernel_thread(do_linuxrc,  
         "/linuxrc" 
         , SIGCHLD); 
        
         if 
         (pid > 0) 
        
         while 
         (pid != sys_wait4(-1, NULL, 0, NULL)) 
        
         yield(); 
        
         current->flags &= ~PF_FREEZER_SKIP; 
        
         /* move initrd to rootfs' /old */ 
        
         sys_fchdir(old_fd); 
        
         sys_mount( 
         "/" 
         ,  
         "." 
         , NULL, MS_MOVE, NULL); 
        
         /* switch root and cwd back to / of rootfs */ 
        
         sys_fchdir(root_fd); 
        
         sys_chroot( 
         "." 
         ); 
        
         sys_close(old_fd); 
        
         sys_close(root_fd); 
        
         if 
         (new_decode_dev(real_root_dev) == Root_RAM0) { 
        
         sys_chdir( 
         "/old" 
         ); 
        
         return 
         ; 
        
         } 
        
         ROOT_DEV = new_decode_dev(real_root_dev); 
        
         mount_root(); 
        
         printk(KERN_NOTICE  
         "Trying to move old root to /initrd ... " 
         ); 
        
         error = sys_mount( 
         "/old" 
         ,  
         "/root/initrd" 
         , NULL, MS_MOVE, NULL); 
        
         if 
         (!error) 
        
         printk( 
         "okay\n" 
         ); 
        
         else 
         { 
        
         int 
         fd = sys_open( 
         "/dev/root.old" 
         , O_RDWR, 0); 
        
         if 
         (error == -ENOENT) 
        
         printk( 
         "/initrd does not exist. Ignored.\n" 
         ); 
        
         else 
        
         printk( 
         "failed\n" 
         ); 
        
         printk(KERN_NOTICE  
         "Unmounting old root\n" 
         ); 
        
         sys_umount( 
         "/old" 
         , MNT_DETACH); 
        
         printk(KERN_NOTICE  
         "Trying to free ramdisk memory ... " 
         ); 
        
         if 
         (fd 
        
         error = fd; 
        
         }  
         else 
         { 
        
         error = sys_ioctl(fd, BLKFLSBUF, 0); 
        
         sys_close(fd); 
        
         } 
        
         printk(!error ?  
         "okay\n" 
         :  
         "failed\n" 
         ); 
        
         } 
        
         }

先將/dev/ram0掛載，然後執行/linuxrc.等其執行完後。切換根目錄，再掛載具體的根文件系統.
到這裏。文件系統掛載的所有內容就分析完了.

4、小結

在本小節裏。分析了根文件系統的掛載流程。並對幾個虛擬根文件系統的狀況作了詳細的分析。理解這部份，對咱們構建linux嵌入式開發系統是頗有幫助的.

5、參考資料

IBM技術論壇的附根文件系統掛載流程圖：