衆所周知SSD的讀寫速度遠比hdd磁盤要快,理解ssd的工做原理使咱們開發處高效儲存方案。
linux
linux 相關指令算法
fstrim --fstab --verbose ## 回收(discard)文件系統上對應磁盤未使用的塊 blkdiscard /dev/nvme1n1 ## 回收並擦除(discard)整個SSD塊設備 wipefs -a /dev/nvme1n1 ## 擦除(erase)文件系統的簽名
fstrim編程
fstrim命令實際能夠視爲手動對SSD磁盤下發TRIM指令。使用-v參數能夠直接查看TRIM回收擦除空間的大小。fstrim是針對已掛載的文件系統的SSD分區json
root@xxxx:~# fstrim --help Usage: fstrim [options] <mount point> Discard unused blocks on a mounted filesystem. Options: -a, --all trim all supported mounted filesystems -A, --fstab trim all supported mounted filesystems from /etc/fstab -o, --offset <num> the offset in bytes to start discarding from -l, --length <num> the number of bytes to discard -m, --minimum <num> the minimum extent length to discard -v, --verbose print number of discarded bytes -n, --dry-run does everything, but trim -h, --help display this help -V, --version display version For more details see fstrim(8).
如下是執行後返回的結果,以NVMe 爲列ubuntu
/home: 32.5 GiB (313011310592 bytes) trimmed on /dev/mapper/gat204--vg-root /boot/efi: 102.2 MiB (607301632 bytes) trimmed on /dev/nvme1n1p1 /boot: 732.5 MiB (825778176 bytes) trimmed on /dev/nvme1n1p2 /: 60.7 GiB (65154805760 bytes) trimmed on /dev/mapper/gat204--vg-swap_1
ubuntu與debian的systemd 服務能夠定時執行fstrim,省去手寫crontab腳本工做。緩存
systemctl status fstrim.timer ##查詢服務狀態 systemctl enable fstrim.timer ##開啓定時TRIM功能
blkdiscard架構
blkdiscard用於擦除(discard)SSD設備扇區,和fstrim不一樣這條命令直接用在塊設備上,默認擦除整個塊設備的全部扇區。app
root@xxxx:~# blkdiscard -help Usage: blkdiscard [options] <device> Discard the content of sectors on a device. Options: -o, --offset <num> offset in bytes to discard from -l, --length <num> length of bytes to discard from the offset -p, --step <num> size of the discard iterations within the offset -s, --secure perform secure discard -z, --zeroout zero-fill rather than discard -v, --verbose print aligned length and offset -h, --help display this help -V, --version display version For more details see blkdiscard(8). root@ECSab169d:~# man blkdiscard
擦除(discard)成功後,沒有返回結果分佈式
root@xxxx:~# blkdiscard /dev/nvme1n1 root@xxxx:~#
wipefs性能
wipefs是linux自帶的程序,用來擦除(erase)文件系統的簽名,不會清空文件系統或設備中的任何其餘數據。默認狀況下, wipefs 不會擦除非整個磁盤設備上的嵌套分區表。爲此,須要—force選項。
root@gat204:~# wipefs --help Usage: wipefs [options] <device> Wipe signatures from a device. Options: -a, --all wipe all magic strings (BE CAREFUL!) -b, --backup create a signature backup in $HOME -f, --force force erasure -i, --noheadings don't print headings -J, --json use JSON output format -n, --no-act do everything except the actual write() call -o, --offset <num> offset to erase, in bytes -O, --output <list> COLUMNS to display (see below) -p, --parsable print out in parsable instead of printable format -q, --quiet suppress output messages -t, --types <list> limit the set of filesystem, RAIDs or partition tables -h, --help display this help -V, --version display version Available output columns: UUID partition/filesystem UUID LABEL filesystem LABEL LENGTH magic string length TYPE superblok type OFFSET magic string offset USAGE type description DEVICE block device name For more details see wipefs(8).
檢查SSD是否支持TRIM
##能夠經過 /sys/block 下的信息來判斷 SSD 支持 TRIM, discard_granularity 非 0 表示支持。 # cat /sys/block/sda/queue/discard_granularity 0 # cat /sys/block/nvme0n1/queue/discard_granularity 512
存儲元器件(閃存顆粒類別)
SSD的儲存是NAND-Flash閃存顆粒,分爲SLC、MLC和QLC四種。能夠粗略地把閃存顆粒理解成是一個電容加上電壓計的組合。一個電容能存放一個比特的數據,電壓計使電容能區分不一樣電壓,不一樣的電壓能存放更多的比特數據。
SLC(Single-Level Cell): 每一個Cell單元存儲1bit信息,也就是隻有0、1兩種電壓變化,結構簡單,電壓控制也快速,反映出來的特色就是壽命長,性能強,P/E壽命在1萬到10萬次之間,但缺點就是容量低而成本高.
MLC(Multi-Level Cell): 每一個cell單元存儲2bit信息,須要更復雜的電壓控制,有00,01,10,11四種變化,這也意味着寫入性能、可靠性能下降了。其P/E壽命根據不一樣製程在3000-5000次不等.
TLC(Triple-Level Cell):每一個cell單元存儲3bit信息,電壓從000到001有8種變化,容量比MLC再次增長1/3,成本更低,可是架構更復雜,P/E編程時間長,寫入速度慢,P/E壽命也降至1000-3000次,部分狀況會更低.壽命短只是相對而言的,一般來說,通過重度測試的TLC顆粒正常使用5年以上是沒有問題的.
QLC(Quad-Level Cell):QLC或者能夠叫4bit MLC,電壓有16種變化,可是容量能增長33%,就是寫入性能、P/E壽命與TLC相比會進一步下降。具體的性能測試上,美光有作過實驗。讀取速度方面,SATA接口中的兩者均可以達到540MB/S,QLC表現差在寫入速度上,由於其P/E編程時間就比MLC、TLC更長,速度更慢,連續寫入速度從520MB/s降至360MB/s,隨機性能更是從9500 IOPS降至5000 IOPS,損失將近一半.
這四類當中,SLC的性能最優,價格超高;MLC性可以用,價格適中爲消費級SSD應用主流;TLC綜合性能最低,價格最便宜,但能夠經過高性能主控、主控算法來彌補、提升TLC閃存的性能;QLC出現的時間很早,價格便宜,容量大。
P/E以及其SSD底層儲存結構
P指的是Program(編程),E指的是Erease (擦除), 閃存徹底擦寫一次能夠稱爲1次P/E,所以閃存的壽命以P/E爲單位。和HDD機械硬盤不一樣,HDD的數據是能夠覆寫的(Overwrite),而SSD在寫入數據前必須先進行擦除(erase),通常在格式化文件系統步驟或者SSD出廠配置的過程當中,SSD已進行了全盤擦除(erase),所以SSD的首次寫入數據是直接編程。
SSD 在閃存單元中存取數據時有 page 和 block 的概念。SSD 被劃分紅不少 block, 而 block 被劃分紅不少 page。
NAND-Flash讀寫流程
Page是NAND-Flash單次讀寫單位,大小通常爲4K或者4K字節的倍數,寫操做只能寫到空的 page,而清除數據(Erase) 是以 塊(block) 爲單位的。塊的擦除次數有壽命限制,超限制就會變成壞塊。
用戶對SSD的寫入數據操做能夠分爲兩種類型
1.原來SSD磁盤上沒有數據,寫入數據。
2.SSD磁盤上有數據,對該數據進行修改(包括刪除)。
前者只需把數據直接寫入到空白頁便可,後者則是read-modify-write方式操做,讀取原有page的內容到緩存中並進行更新,最後寫入到其餘空的page,原有的page置爲無效頁。
能夠想象對文件的持續反覆的修改,將會產生大量的無效頁,這就須要「垃圾回收」(Garbage Collection-gc)機制來回收這些無效頁,不然能夠寫入空間愈來愈小。
FTL 和磨損均衡
SSD的主控執行磨損均衡(Wear-Leveling)策略,使SSD磁盤各個塊的擦除次數均勻分攤到各個塊上。就像內存MMU同樣,SSD內部使用閃存轉換層(FTL)存放了邏輯塊地址(Logical Block Address,簡稱 LBA)到物理塊地址(Physical Block Address,簡稱 PBA)的映射。操做系統訪問的硬盤地址,其實都是邏輯地址。只有經過 FTL 轉換以後,纔會變成實際的物理地址,找到對應的塊進行訪問。操做系統自己,不須要去考慮塊的磨損程度,只要和操做機械硬盤同樣來讀寫數據就行了。
「垃圾回收」機制
寫入放大(write amplification)
上文說起過數據的反覆修改會產生大量的無效頁,一旦整個塊(block)的空間不足以寫入數據,SSD會將這個塊(block)的數據讀入到緩存中,擦除這個塊(block)所中的頁,而後再把緩存中已更新的數據寫入進去。這種read-erase-modify-write過程,就比如寫入的數據可能只有一個頁4KB,但實際要擦除而且寫N個頁,稱之爲寫入放大。
寫入放大的倍數越大,寫入的速度就越慢。
TRIM指令
TRIM是SSD的ATA-8指令,解決寫入放大的關鍵。
文件系統在修改或者刪除過程當中,發送給通知給SSD記錄產生的無效頁,間隔必定時間再統一回收擦除全部無效頁,擦除更新無效頁所在的塊(block)。
一方面預留足夠多的空間,避免因空間不足產生寫入放大的狀況。另外一方面,使用TRIM,在IO閒時回收擦除無效頁,這樣有效保證SSD的性能以及提升壽命。
discard與TRIM的區別
在linux術語中,discard指的就是TRIM
不建議使用linux系統默認的TRIM功能
TRIM功能有兩種方式啓動,一種是連續TRIM,就是直接在文件系統回收塊的時候直接發TRIM命令,這種方式對性能影響比較大,在fstab掛載的時候把default修改爲discard。另一種是按期執行fstrim批量進行TRIM操做,這樣避免平時的性能影響,不過fstrim的執行時機要選好,畢竟批量TRIM的時候會對其它任務性能影響較大。
根據文章《Ubuntu Doesn’t TRIM SSDs By Default: Why Not and How To Enable It Yourself》說起到
「The kernel implementation of realtime trim in 11.2, 11.3, and 11.4 is not optimized. The spec. calls for trim supporting a vectorized list of trim ranges, but as of kernel 3.0 trim is only invoked by the kernel with a single discard / trim range and with current mid 2011 SSDs this has proven to cause a performance degradation instead of a performance increase. There are few reasons to use the kernels realtime discard support with pre-3.1 kernels. It is not known when the kernels discard functionality will be optimized to work beneficially with current generation SSDs.」 [Source]
利用內核方式的discard 方式沒法感知對SSD當前性能的影響。
實踐
使用fio測試nvme裸設備
使用fio對裸設備直接進行randwrite測試,在超過30分鐘速度由400MiB/s下降至80MiB/s 分析緣由得出SSD觸發了放大寫現象,而且因爲沒有掛載文件系統,沒法使用fstrim手動回收空間(能夠理解成,在沒有文件系統標記下,SSD也不知道哪些是無效頁),再次進行fio測試速度依然是80MiB/s。使用blkdiscard進行全盤擦除後,速度恢復正常。
參考文獻
《Trim命令》 wiki百科
《淺談分佈式存儲之SSD基本原理》滴滴雲
《Linux 下啓用 SSD TRIM 功能》Louis
結束語
當使用fio直接ssd磁盤進行寫入測試後,對磁盤使用blkdiscard可恢復原來的速度。