Lustre I/O性能特色與最佳實踐

時間 2019-11-20

原文原文鏈接

1 Lustre概述
Lustre是面向集羣的存儲架構，它是基於Linux平臺的開源集羣（並行）文件系統，提供與POSIX兼容的文件系統接口。Lustre兩個最大特徵是高擴展性和高性能，可以支持數萬客戶端系統、PB級存儲容量、數百GB的聚合I/O吞吐量。Lustre是Scale-Out存儲架構，藉助強大的橫向擴展能力，經過增長服務器便可方便擴展系統總存儲容量和性能。Lustre的集羣和並行架構，很是適合衆多客戶端併發進行大文件讀寫的場合，但目前對於小文件應用很是不適用，尤爲是海量小文件應用LOSF（Lots Of Small Files）。Lustre普遍應用於各類環境，目前部署最多的爲高性能計算HPC，世界超級計算機TOP 10中的70%，TOP 30中的50%，TOP 100中的40%均部署了Lustre。另外，Lustre在石油、自然氣、製造、富媒體、金融等行業領域也被大量部署應用。html

2 Lustre Stripe
Lustre採用對象存儲技術，將大文件分片並以相似RAID0的方式分散存儲在多個OST上，一個文件對應多個OST上的對象。Lustre系統中，每一個文件對應MDT上的一個元數據文件，inode以擴展屬性記錄了數據分片佈局信息，包括stripe_count（對象數）, stripe_size（分片大小）, stripe_offset（起始OST）以及每一個OST對象信息。當客戶數據端訪問文件時，首先從MDS請求文件元數據並得到分片佈局信息（stripe layout），而後直接與多個OST同時交互進行併發讀寫。Lustre這種數據分片策略，提升了多用戶訪問的併發度和聚合I/O帶寬，這是Lustre得到高性能的主要因素。再者，Stripe還可以使得Lustre能夠存儲超大文件，突破單一OST對文件大小的限制。固然，數據分片策略同時也會帶來負面影響，好比增長系統負載和數據風險。node

Lustre的OST數量能夠達到數千，可是出於複雜性、性能、實際存儲需求等考慮，目前設計實現中將單個文件對象數限制爲160個。對於EXT4後端文件系統，單個文件最大可達2TB，所以Lustre單個文件最大能夠達到320TB。那麼，Lustre如何在可用OST集合中選擇合適的OST呢？目前有兩種選擇算法，即Round-Robin和隨機加權算法，這兩種算法調度的依據是，任意兩個OST剩餘存儲容量相差是否超過20%的閾值。通常在系統使用之初，直接使用Round-Robin算法以順序輪轉方式選擇OST，這種算法很是高效。隨着文件數據量的增長，一旦達到20%的閾值，Lustre將啓用隨機加權算法選擇OST。Lustre維護着一個剩餘空間的優先列表，採用隨機算法在此列表中選擇OST，這種算法會產生開銷並影響性能。若是任意兩個OST剩餘存儲容量相差從新降到20%閾值以內，則從新啓用Round-Robin算法選擇OST。Lustre在建立文件時就按照分片模式並採用OST選擇算法，預先建立好文件所需的OST對象。分片模式可使用lfs setstripe進行設置，或者由系統自動選擇缺省模式，文件目錄會自動繼承父目錄的分片模式，但能夠進行修改。數據寫入後，文件分片模式就不能修改，新加入的OST只會參與新建立的文件目錄OST選擇調度。Lustre目前尚未實現OST存儲空間的自動均衡，須要手工進行數據遷移複製達到均衡的效果。算法

Lustre缺省狀況下，stripe_count = 1, stripe_size = 1MB, stripe_offset = -1，即每一個文件僅包含一個OST對象，分片大小爲1MB，起始OST由Lustre自動選擇。實際上這種分片模式就是不對文件進行分片存儲，顯然不能知足許多應用的存儲需求，實際應用時須要在分析數據特色、網絡環境、訪問行爲的基礎上進行適當配置。分片不是越多越好，在知足存儲需求的前提下，應該使得OST對象數量儘量少。應用lustre Stripe時，應該考慮以下因素：
（1）提供高帶寬訪問。Lustre文件分片並存儲於多個OSS，對於單一大文件來講，它能夠提供遠大於單一OSS提供的聚合I/O帶寬。在HPC環境中，成百上千的客戶端會同時併發讀寫同一個文件，當文件很大時，分散與多個OSS可以得到很是高的聚合帶寬。Lustre文件系統理論上能夠提供2.5 TB/s的帶寬，通過驗證的帶寬達到240 GB/s。固然對於小於1GB的文件來講，分片數量不宜多於4個，更多分片不會帶來更高的性能提高，還會引入額外開銷。對於小文件，文件大小自己可能小於分片大小，其實是不做分片，對性能不會有提高。
（2）改善性能。若是聚合的客戶端帶寬超過單個OSS的帶寬，文件分片存儲策略能夠充分利用聚合的OSS帶寬，極大提升性能，爲應用程序提供高速的數據讀寫訪問。合理的分片數量能夠估算，客戶端聚合I/O帶寬除以單個OSS I/O性能便可獲得。
（3）提供超大容量文件。Lustre後端文件系統採用改進的EXT3文件系統（接近於EXT4），單個文件最大爲2TB。若是不進行分片，則單個Lustre文件最大隻能爲2TB。Lustre目前分片最多可達到160個，所以文件最大能夠達到320TB，這是容量是很是大的，基本上能夠知足全部單一文件存儲容量的需求。
（4）提升存儲空間利用率。當Lustre剩餘存儲空間有限時，每一個OSS的剩餘空間也就更加有限，這時再寫入一個的大文件至單一OSS很大可能會因爲空間不足而失敗。採用分片策略，寫入單個OSS的對象容量會成倍減少，若是OSS數量選擇合適，文件仍然能夠寫入Lustre系統。這使得Lustre存儲空間利用更爲充分，有效提升了利用率。
（5）增長負載。Stripe會致使額外的鎖和網絡操做消耗，好比stat, unlink，雖然這些操做能夠併發執行，但仍會對性能產生影響。另外，分片多會形成服務器的開銷。設想這樣一個情形:Lustre中有100個OSS，100個客戶端，100個文件，每一個客戶端訪問一個文件。若是不分片，則每一個客戶端僅與一個OSS相互，能夠進行順序I/O讀寫。若是每一個文件分紅100片，則每一個客戶端都須要分別與100個OSS進行相交，併發訪問時，OSS上的磁盤I/O爲隨機讀寫。這些都是額外的負載開銷，必定程度上影響性能。
（6）增長風險。從機率的角度看，多個OSS發生故障的機率要高出單個OSS許多。文件分片存儲於多個OSS上，一個分片不可用就會致使整個文件不可訪問，即便其餘分片仍然是無缺的。所以，分片大大增長了數據發生丟失的風險，須要採用適當的措施進行保護，好比RAID5/6或者Failover。後端

3 Lustre I/O性能特徵緩存

（1）寫性能優於讀性能
Lustre系統中一般寫性能會優於讀性能。首先，對於寫操做，客戶端是以異步方式執行的，RPC調用分配以及寫入磁盤順序按到達順序執行，能夠實現聚合寫以提升效率。而對於讀，請求可能以不一樣的順序來自多個客戶端，須要大量的磁盤seek與read操做，顯著影響吞吐量。其次，目前Lustre沒有實現OST read cache，僅僅在客戶端實現了Readahead。這樣的設計也是有充分理由的，每一個OST有可能會有大量客戶端併發訪問，若是進行數據預讀，內存消耗將會很是大，並且這個是不可控制的。Writecache是在客戶端上實現的，內存佔用不會太大而且是可控的。再者，對於TCP/IP網絡而言，讀會佔用更多的CPU資源。讀操做，Lustre須要從網絡接口緩存進行數據Copy而得到所需數據，而寫操做能夠經過sendfile或Zero Copy避免額外的數據複製。服務器

（2）大文件性能表現好
Lustre的元數據與數據分離、數據分片策略、數據緩存和網絡設計很是適合大文件順序I/O訪問，大文件應用下性能表現很是好。這些設計着眼於提升數據訪問的並行性，實現極大的聚合I/O帶寬，這其中關鍵得益於數據分片設計（具體見上面的分析）。另外，後端改進的EXT3文件系統自己也很是適合大文件I/O。網絡

（3）小文件性能表現差
然而，Lustre的設計卻很是不利於小文件I/O，尤爲是LOSF（Lots of small files）。Lustre在讀寫文件前須要與MDS交互，得到相關屬性和對象位置信息。與本地文件系統相比，增長了一次額外的網絡傳輸和元數據訪問開銷，這對於小文件I/O而言，開銷是至關大的。對於大量頻繁的小文件讀寫，Lustre客戶端Cache做用會失效，命中率大大下降。若是文件小於物理頁大小，則還會產生額外的網絡通訊量，小文件訪問越頻繁開銷越大，對Lustre整體I/O性能影響就越大。OST後端採用改進的EXT3文件系統，它對小文件的讀寫性能自己就很差，其元數據訪問效率不高，磁盤尋址延遲和磁盤碎片問題嚴重。這也是大多數磁盤文件系統的缺點，Reiserfs是針對小文件設計的文件系統，性能表現要好不少。Lustre的設計決定了它對小文件I/O性能表現差，實際I/O帶寬遠低於所提供的最大帶寬。在4個OSS的千兆網絡配置下，單一客戶端小文件讀寫性能不到4MB/s。多線程

4 Lustre小文件優化
實際上前面已經提到，Lustre並不適合小文件I/O應用，性能表現很是差。所以，建議不要將Lustre應用於LOSF場合。不過，Lustre操做手冊仍然給出了一些針對小文件的優化措施。
（1）經過應用聚合讀寫提升性能，好比對小文件進行Tar，或建立大文件或經過loopback mount來存儲小文件。小文件系統調用開銷和額外的I/O開銷很是大，應用聚合優化能夠顯著提升性能。另外，可使用多節點、多進程/多線程儘量經過聚合來提升I/O帶寬。
（2）應用採用O_DIRECT方式進行直接I/O，讀寫記錄大小設置爲4KB，與文件系統保持一致。對輸出文件禁用locking，避免客戶端之間的競爭。
（3）應用程序儘可能保證寫連續數據，順序讀寫小文件要明顯優於隨機小文件I/O。
（4）OST採用SSD或更多的磁盤，提升IOPS來改善小文件性能。建立大容量OST，而非多個小容量OST，減小日誌、鏈接等負載。
（5）OST採用RAID 1+0替代RAID 5/6，避免頻繁小文件I/O引發的數據校驗開銷。架構

Lustre提供了強大的系統監控與控制接口用於進行性能分析與調優，對於小文件I/O，也能夠經過調整一些系統參數進行優化。
（1）禁用全部客戶端LNET debug功能：缺省開啓多種調試信息，sysctl -w lnet.debug=0，減小系統開銷，但發生錯誤時將無LOG可詢。
（2）增長客戶端Dirty Cache大小：lctl set_param osc./*.max_dirty_mb=256，缺省爲32MB，增大緩存將提高I/O性能，但數據丟失的風險也隨之增大。
（3）增長RPC並行數量：echo 32 > /proc/fs/lustre/osc/*-OST000*/max_rpcs_in_flight，缺省爲8，提高至32將提升數據和元數據性能。不利之處是若是服務器壓力很大，可能反而會影響性能。
（4）控制Lustre striping：lfs setstripe -c 0/1/-1 /path/filename，若是OST對象數大於1，小文件性能會降低，所以將OST對象設置爲1。
（5）客戶端考慮使用本地鎖：mount -t lustre -o localflock，若是肯定多個進程從同一個客戶端進行寫文件，則可用localflock代替flock，減小發送到MDS的RPC數量。
（6）使用loopback mount文件：建立大Lustre文件，與loop設備關聯並建立文件系統，而後將其做爲文件系統進行mount。小文件做用其上，則原先大量的MDS元數據操做將轉換爲OSS讀寫操做，消除了元數據瓶頸，能夠顯著提升小文件性能。這種方法應用於scratch空間可行，但對於生產數據應該謹慎使用，由於Lustre目前工做在這種模式下還存在問題。操做方法以下：
dd if=/dev/zero of=/mnt/lustre/loopback/scratch bs=1048576 count=1024
losetup /dev/loop0 /mnt/lustre/loopback/scratch
mkfs -t ext4 /dev/loop0
mount /dev/loop0 /mnt/losf併發

5 Lustre I/O最佳實踐
Lustre具備鮮明的I/O特色，並具備很是高的擴展性和大文件I/O性能。若是進行適當的配置和操做，Lustre則會展示更高的性能。下面給出一些Lustre I/O最佳實踐，可根據實際應用狀況擇優實踐。
（1）使用單進程讀取完整的共享小文件，須要時傳輸數據至其餘進程。
（2）使用單進程訪問容量在(1MB, 1GB)之間的小文件，將文件OST對象數設爲1。
（3）使用單進程訪問大於1GB的中等文件，文件OST對象數不超過4個。
（4）遠大於1GB的大文件OST對象數應設爲＞4，這種文件不要採用順序I/O或file-per-process的I/O訪問模式。
（5）限制單個目錄下的文件數量，包含大量小文件的目錄stripe_count設置爲1。
（6）小文件存放在單一OST上，單進程文件建立和讀寫性能會獲得提升。
（7）包含大量小文件的目錄存放在單一OST上，文件建立性能會提到極大提高。
（8）儘可能避免頻繁地打開和關閉文件。
（9）僅在必要時使用ls -l，它會與全部相關的OST交互，操做代價很大，儘量使用ls和lfs find代替。
（10）考慮使用I/O中間件來改善性能，如ADIOS、HDF五、MPI-IO。

6 Lustre深刻閱讀
[1] Luster: http://www.lustre.org
[2] Lustre 2.0 Operations Manual http://wiki.lustre.org/manual/LustreManual20_HTML/index.html
[3] Understanding Lustre Internals http://wiki.lustre.org/images/d/da/Understanding_Lustre_Filesystem_Internals.pdf
[4] Lustre Architecture ftp://ftp.uni-duisburg.de/Linux/filesys/Lustre/lustre.pdf
[5] Lustre White Paper http://www.raidinc.com/pdf/whitepapers/lustrefilesystem_wp.pdf
[6] Lustre Sources: https://cds.sun.com/is-bin/INTERSHOP.enfinity/WFS/CDS-CDS_SMI-Site/en_US/-/USD/ViewProductDetail-Start?ProductRef=LUSTRE-185-G-F@CDS-CDS_SMI