分佈式文件系統、集羣文件系統、並行文件系統,這三種概念很容易混淆,實際中你們也常常不加區分地使用。老是有人問起這三者的區別和聯繫,其實它們之間在概念上的確有交叉重疊的地方,可是也存在顯著不一樣之處。 分佈式文件系統 天然地,分佈式是重點,它是相對與本地文件系統而言的。分佈式文件系統一般指C/S架構或網絡文件系統,用戶數據沒有直接鏈接到本地主機,而是存儲在遠程存儲服務器上。NFS/CIFS是最爲常見的分佈式文件系統,這就是咱們說的NAS系統。分佈式文件系統中,存儲服務器的節點數多是1個(如傳統NAS),也能夠有多個(如集羣NAS)。對於單個節點的分佈式文件系統來講,存在單點故障和性能瓶頸問題。除了NAS之外,典型的分佈式文件系統還有AFS,以及下面將要介紹的集羣文件系統(如Lustre, GlusterFS, PVFS2等)。 集羣文件系統 集羣主要分爲高性能集羣HPC(High Performance Cluster)、高可用集羣HAC(High Availablity Cluster)和負載均衡集羣LBC(Load Balancing Cluster)。集羣文件系統是指協同多個節點提供高性能、高可用或負載均衡的文件系統,它是分佈式文件系統的一個子集,消除了單點故障和性能瓶問題。對於客戶端來講集羣是透明的,它看到是一個單一的全局命名空間,用戶文件訪問請求被分散到全部集羣上進行處理。此外,可擴展性(包括Scale-Up和Scale-Out)、可靠性、易管理等也是集羣文件系統追求的目標。在元數據管理方面,能夠採用專用的服務器,也能夠採用服務器集羣,或者採用徹底對等分佈的無專用元數據服務器架構。目前典型的集羣文件系統有SONAS, ISILON, IBRIX, NetAPP-GX, Lustre, PVFS2, GlusterFS, Google File System, LoongStore, CZSS等。 並行文件系統 這種文件系統可以支持並行應用,好比MPI。在並行文件系統環境下,全部客戶端能夠在同一時間併發讀寫同一個文件。併發讀,大部分文件系統都可以實現。併發寫實現起來要複雜許多,既要保證數據一致性,又要最大限度提升並行性,所以在鎖機制方面須要特別設計,如細粒度的字節鎖。一般SAN共享文件系統都是並行文件系統,如GPFS、StorNext、GFS、BWFS,集羣文件系統大多也是並行文件系統,如Lustre, Panasas等。如何區分?區分這三者的重點是分佈式、集羣、並行三個前綴關鍵字。簡單來講,非本地直連的、經過網絡鏈接的,這種爲分佈式文件系統;分佈式文件系統中,服務器節點由多個組成的,這種爲集羣文件系統;支持並行應用(如MPI)的,這種爲並行文件系統。在上面所舉的例子中也能夠看出,這三個概念之間具備重疊之處,好比Lustre,它既是分佈式文件系統,也是集羣和並行文件系統。可是,它們也有不一樣之處。集羣文件系統是分佈式文件系統,但反之則不成立,好比NAS、AFS。SAN文件系統是並行文件系統,但可能不是集羣文件系統,如StorNext。GFS、HDFS之類,它們是集羣文件系統,但可能不是並行文件系統。實際中,三者概念搞理清後,分析清楚文件系統的特徵,應該仍是容易正確地爲其劃分類別的。