Linux EXT系列文件系統格式

Linux文件系統

clipboard.png
常見的硬盤如上圖所示,每一個盤片分多個磁道,每一個磁道分多個扇區,每一個扇區512字節,是硬盤的最小存儲單元,可是在操做系統層面會將多個扇區組成塊(block),是操做系統存儲數據的最小單元,一般是8個扇區組成4K字節的塊。
對於Linux文件系統,須要考慮如下幾點:node

  • 文件系統須要有嚴格的組織形式,使文件可以以塊爲單位存儲
  • 文件系統須要有索引區,方便查找一個文件分紅的多個塊存在了什麼位置
  • 若是有文件近期常常被讀寫,須要有緩存層
  • 文件應該用文件夾的形式組織起來方便管理和查詢
  • Linux內核要在本身的內存裏維護一套數據結構,保持哪些文件被哪些進程打開和使用

Linux裏面一切皆文件,都有如下幾種文件(從ls -l結果的第一位標識位能夠看出來):linux

  • - 表示普通文件
  • d 表示文件夾
  • c 表示字符設備文件
  • b 表示塊設備文件
  • s 表示套接字socket文件
  • l 表示軟連接

Inode和塊存儲

下面就以EXT系列格式爲例來看一下文件是若是存在硬盤上的。首先文件會被分紅一個個的塊,分散得存在硬盤上,就須要一個索引結構來幫助咱們找到這些塊以及記錄文件的一些元信息,這就是inode,其中i表明index。inode數據結構以下:緩存

struct ext4_inode {
        __le16  i_mode;         /* File mode */
        __le16  i_uid;          /* Low 16 bits of Owner Uid */
        __le32  i_size_lo;      /* Size in bytes */
        __le32  i_atime;        /* Access time */
        __le32  i_ctime;        /* Inode Change time */
        __le32  i_mtime;        /* Modification time */
        __le32  i_dtime;        /* Deletion Time */
        __le16  i_gid;          /* Low 16 bits of Group Id */
        __le16  i_links_count;  /* Links count */
        __le32  i_blocks_lo;    /* Blocks count */
        __le32  i_flags;        /* File flags */
        union {
                struct {
                        __le32  l_i_version;
                } linux1;
                struct {
                        __u32  h_i_translator;
                } hurd1;
                struct {
                        __u32  m_i_reserved1;
                } masix1;
        } osd1;                         /* OS dependent 1 */
        __le32  i_block[EXT4_N_BLOCKS];/* Pointers to blocks */
        __le32  i_generation;   /* File version (for NFS) */
        __le32  i_file_acl_lo;  /* File ACL */
        __le32  i_size_high;
        __le32  i_obso_faddr;   /* Obsoleted fragment address */
        union {
                struct {
                        __le16  l_i_blocks_high; /* were l_i_reserved1 */
                        __le16  l_i_file_acl_high;
                        __le16  l_i_uid_high;   /* these 2 fields */
                        __le16  l_i_gid_high;   /* were reserved2[0] */
                        __le16  l_i_checksum_lo;/* crc32c(uuid+inum+inode) LE */
                        __le16  l_i_reserved;
                } linux2;
                struct {
                        __le16  h_i_reserved1;  /* Obsoleted fragment number/size which are removed in ext4 */
                        __u16   h_i_mode_high;
                        __u16   h_i_uid_high;
                        __u16   h_i_gid_high;
                        __u32   h_i_author;
                } hurd2;
                struct {
                        __le16  h_i_reserved1;  /* Obsoleted fragment number/size which are removed in ext4 */
                        __le16  m_i_file_acl_high;
                        __u32   m_i_reserved2[2];
                } masix2;
        } osd2;                         /* OS dependent 2 */
        __le16  i_extra_isize;
        __le16  i_checksum_hi;  /* crc32c(uuid+inum+inode) BE */
        __le32  i_ctime_extra;  /* extra Change time      (nsec << 2 | epoch) */
        __le32  i_mtime_extra;  /* extra Modification time(nsec << 2 | epoch) */
        __le32  i_atime_extra;  /* extra Access time      (nsec << 2 | epoch) */
        __le32  i_crtime;       /* File Creation time */
        __le32  i_crtime_extra; /* extra FileCreationtime (nsec << 2 | epoch) */
        __le32  i_version_hi;   /* high 32 bits for 64-bit version */
        __le32  i_projid;       /* Project ID */
};

其中__le32 i_block[EXT4_N_BLOCKS]存儲了到數據塊的引用,EXT4_N_BLOCKS定義以下:數據結構

#define    EXT4_NDIR_BLOCKS    12
#define    EXT4_IND_BLOCK    EXT4_NDIR_BLOCKS
#define    EXT4_DIND_BLOCK    (EXT4_IND_BLOCK    + 1)
#define    EXT4_TIND_BLOCK    (EXT4_DIND_BLOCK + 1)
#define    EXT4_N_BLOCKS    (EXT4_TIND_BLOCK + 1)

在ext2和ext3中i_block前12項存儲了直接到數據塊的引用,第13項存儲的是到間接塊的引用,在間接塊裏存儲着數據塊的位置,以此類推,第14項裏存儲着二次間接快的位置,第15項裏存儲着三次間接塊的位置,以下圖所示:socket

clipboard.png

不難看出,對於大文件,須要屢次讀取硬盤才能找到相應的塊,在ext4中就提出了Extents Tree來解決這一問題,其核心思想就是把連續的塊用開始位置加塊的個數來表示,再也不是一個一個去記錄每個塊的位置,這樣就能節約存儲空間。首先,它將i_block中原來415=60字節的空間換成了一個extent header(ext4_extent_header)加4個extent entry(ext4_extent),由於ext4_extent_header和ext4_extent都是佔用了12字節。ee_len中的第一個bit用來判斷是否初始化,因此它還能存儲最大32K個數,因此一個extent entry裏最大能夠存32K4K=128M的數據,若是一個文件大於4128M=512M或者這個文件被分散到多於4個不連續的塊中存儲,咱們就須要擴展inode中的i_block結構。它的extent entry就要從ext4_extent被換成ext4_extent_idx結構體,它所指向的是一個塊,有4K字節,除去header佔用的12字節,還能存340個ext4_extent,最大能夠存340128M=42.5G的數據。能夠看出這種索引結構在文件用連續的塊存儲時很是高效。ui

struct ext4_extent_header {
    __le16    eh_magic;    /* ext4 extents標識:0xF30A */
    __le16    eh_entries;  /* 當前層級中有效節點的數目 */
    __le16    eh_max;      /* 當前層級中最大節點的數目 */
    __le16    eh_depth;    /* 當前層級在樹中的深度,0爲葉子節點,即數據節點,>0表明索引節點 */
    __le32    eh_generation; 
}
struct ext4_extent {
     __le32   ee_block;    /* extent的起始block邏輯序號 */
     __le16   ee_len;      /* extent包含的block個數 */
     __le16   ee_start_hi; /*extent起始block的物理地址的高16位 */
     __le32   ee_start_lo; /*extent起始block的物理地址的低32位 */
};//數據節點中的extent_body格式
struct ext4_extent_idx {
    __le32   ei_block;    /* 索引所覆蓋的文件範圍的起始block的邏輯序號 */
    __le32   ei_leaf_lo;  /* 存放下一級extents的block的物理地址的低32位 */     
    __le16   ei_leaf_hi;  /* 存放下一級extents的block的物理地址的高16位 */
     __u16   ei_unused;

};//索引節點中的extent_body格式

舉一個/var/log/messages文件的例子以下圖所示:spa

clipboard.png

inode位圖和塊位圖

硬盤上會有專門存放塊數據的區域也會有存放inode的區域,可是當咱們要新建一個文件時,就須要知道哪一個inode區域和哪一個塊是空的,這就須要分別用一個塊來存儲inode位圖和一個塊來存儲塊位圖,每個bit爲1表示佔用,爲0表示未佔用。可是一個塊最多有4K*8=32K個位,也就最多能表示32K個塊的狀態,因此須要讓這些塊組成一個塊組,來搭出更大的系統。操作系統

硬連接和軟連接

硬連接與原文件共用一個inode,且inode不能跨文件系統,因此硬連接也不能跨文件系統。code

clipboard.png

軟連接有本身inode,只是打開文件時是指向另一個文件,因此能夠跨文件系統且當原文件被刪除後仍存在。索引

clipboard.png

相關文章
相關標籤/搜索