Linux EXT4文件系統介紹和性能測試

Linux kernel 自 2.6.28 開始正式支持新的文件系統 Ext4。 Ext4 是 Ext3 的改進版,修改了 Ext3 中部分重要的數據結構,而不只僅像 Ext3 對 Ext2 那樣,只是增長了一個日誌功能而已。Ext4 能夠提供更佳的性能和可靠性,還有更爲豐富的功能:

1. 與 Ext3 兼容。執行若干條命令,就能從 Ext3 在線遷移到 Ext4,而無須從新格式化磁盤或從新安裝系統。原有 Ext3 數據結構照樣保留,Ext4 做用於新數據,固然,整個文件系統所以也就得到了 Ext4 所支持的更大容量。

2. 更大的文件系統和更大的文件。較之 Ext3 目前所支持的最大 16TB 文件系統和最大 2TB 文件,Ext4 分別支持 1EB(1,048,576TB, 1EB=1024PB, 1PB=1024TB)的文件系統,以及 16TB 的文件。

3. 無限數量的子目錄。Ext3 目前只支持 32,000 個子目錄,而 Ext4 支持無限數量的子目錄。

4. Extents。Ext3 採用間接塊映射,當操做大文件時,效率極其低下。好比一個 100MB 大小的文件,在 Ext3 中要創建 25,600 個數據塊(每一個數據塊大小爲 4KB)的映射表。而 Ext4 引入了現代文件系統中流行的 extents 概念,每一個 extent 爲一組連續的數據塊,上述文件則表示爲「該文件數據保存在接下來的 25,600 個數據塊中」,提升了很多效率。

5. 多塊分配。當寫入數據到 Ext3 文件系統中時,Ext3 的數據塊分配器每次只能分配一個 4KB 的塊,寫一個 100MB 文件就要調用 25,600 次數據塊分配器,而 Ext4 的多塊分配器「multiblock allocator」(mballoc) 支持一次調用分配多個數據塊。

6. 延遲分配。Ext3 的數據塊分配策略是儘快分配,而 Ext4 和其它現代文件操做系統的策略是儘量地延遲分配,直到文件在 cache 中寫完纔開始分配數據塊並寫入磁盤,這樣就能優化整個文件的數據塊分配,與前兩種特性搭配起來能夠顯著提高性能。

7. 快速 fsck。之前執行 fsck 第一步就會很慢,由於它要檢查全部的 inode,如今 Ext4 給每一個組的 inode 表中都添加了一份未使用 inode 的列表,從此 fsck Ext4 文件系統就能夠跳過它們而只去檢查那些在用的 inode 了。

8. 日誌校驗。日誌是最經常使用的部分,也極易致使磁盤硬件故障,而從損壞的日誌中恢復數據會致使更多的數據損壞。Ext4 的日誌校驗功能能夠很方便地判斷日誌數據是否損壞,並且它將 Ext3 的兩階段日誌機制合併成一個階段,在增長安全性的同時提升了性能。

9. 「無日誌」(No Journaling)模式。日誌總歸有一些開銷,Ext4 容許關閉日誌,以便某些有特殊需求的用戶能夠藉此提高性能。

10. 在線碎片整理。儘管延遲分配、多塊分配和 extents 能有效減小文件系統碎片,但碎片仍是不可避免會產生。Ext4 支持在線碎片整理,並將提供 e4defrag 工具進行個別文件或整個文件系統的碎片整理。

11. inode 相關特性。Ext4 支持更大的 inode,較之 Ext3 默認的 inode 大小 128 字節,Ext4 爲了在 inode 中容納更多的擴展屬性(如納秒時間戳或 inode 版本),默認 inode 大小爲 256 字節。Ext4 還支持快速擴展屬性(fast extended attributes)和 inode 保留(inodes reservation)。

12. 持久預分配(Persistent preallocation)。P2P 軟件爲了保證下載文件有足夠的空間存放,經常會預先建立一個與所下載文件大小相同的空文件,以避免將來的數小時或數天以內磁盤空間不足致使下載失敗。 Ext4 在文件系統層面實現了持久預分配並提供相應的 API(libc 中的 posix_fallocate()),比應用軟件本身實現更有效率。

13. 默認啓用 barrier。磁盤上配有內部緩存,以便從新調整批量數據的寫操做順序,優化寫入性能,所以文件系統必須在日誌數據寫入磁盤以後才能寫 commit 記錄,若 commit 記錄寫入在先,而日誌有可能損壞,那麼就會影響數據完整性。Ext4 默認啓用 barrier,只有當 barrier 以前的數據所有寫入磁盤,才能寫 barrier 以後的數據。(可經過 "mount -o barrier=0" 命令禁用該特性。)


Ext4 隨 Linux kernel 2.6.28 正式發佈已有數週,一直苦於找不到測試用的磁盤,正巧年前 Intel 送來幾塊 SSD 測試樣品,這兩天就順帶把 SSD 也測了。測試所使用的 Linux 內核版本爲 2.6.28.2,測試工具爲 IOzone 3.318。

測試結果除了代表 Intel SSD 的讀寫速度快得使人咋舌以外,還能夠說明 Ext4 的各方面性能都超過了上一代 Ext3,甚至在大多數狀況下,比沒有日誌功能的 Ext2 還要快出很多:node

 

由於ext3的inode使用32的地址指針以及3次間接指針,這樣單個文件的大小最多爲2^10*2^10*2^10*2^11,也就是2的41次方,即在32系統上並使用4k塊大小時,單個文件最可能是8TB。因爲使用32位的地址長度,ext3最多支持的磁盤大小爲2^31*4K,即8TB(inode號是有符號int的變量,因此是2^31)。
   因爲當今磁盤陣列的發展,已經出現了超過8TB的磁盤陣列,因而最近內核郵件列表裏火了一把關於ext3擴展的討論,這就是ext4。
   看了一下,那幫ext3/ext2的開發者們使用了以下了inode替換了原來的ext3_inode結構
struct ext3_extent {
        __le32        ee_block;        /* first logical block extent covers */
        __le16        ee_len;                /* number of blocks covered by extent */
        __le16        ee_start_hi;        /* high 16 bits of physical block */
        __le32        ee_start;        /* low 32 bits of physical block */
    };   原來的inode使用15個指針指向文件存放的塊,其中最後三個是間接索引;如今ext4使用稱爲擴展的inode替代了原來的ext3_inode,即ext3_extent。
   extent的空間佔3個字節,這樣原來的15個指針空間能夠存放5個extent,若是文件足夠連續的話,就能夠存放5×2^16byte(320kbyte)大小的文件。原來的ext3在不使用間接索引的時候,只能存放48kbyte大小的文件,這樣extent就減小了小文件(不大不小文件?)的指針索引次數,加快了訪問時間。
   當文件超過必定大小時,extent也使用間接索引,不過與ext3不一樣的是,extent的間接索引次數沒有限制,不像ext3最多隻能作3次間接索引。
   注意ee_len字段,它是16位的,也就是說它的一個塊組最大是64k,而不是4k。這樣大量減小了查找時間,ext4開發者解釋說,「如今文件存放傾向於使用連續的塊,這樣作是不會讓費空間的」。
   另外一個重要的字段是:ee_start和ee_start_hi,他們共同組成48位的磁盤塊索引,
這樣能夠支持1024 PB大小的設備,在將來數十年,足夠了!
   可是ext4有一個缺點,那就是舊內核不能識別使用ext4的磁盤。
 緩存

相關文章
相關標籤/搜索