在生產中咱們通常但願文件系統能幫咱們解決如下問題,如:1.超大數據存儲;2.數據高可用(冗餘備份);3.讀/寫高性能;4.海量數據計算。最好還得支持多平臺多語言,支持高併發。服務器
因爲單臺服務器沒法知足以上要求,這就迫使開發者不得不考慮使用其餘方式解決此類問題。分佈式文件系統就在這樣迫切的需求下孕育而生。架構
今天爲何把標題定爲「分佈式文件系統」呢?是由於我想經過這次分享(FastDFS原理介紹),和你們去作更多關於分佈式文件系統的研究和分享。我想這項研究應該會是一個「系列」性的專題。在本文以後還計劃分享「FastDFS源碼分析」,「FastDFS擴容及資源優化」。併發
——————————————————>我是分隔線<——————————————————————-負載均衡
什麼是FastDFS?tcp
FastDFS是一個開源的輕量級分佈式文件系統。它解決了大數據量存儲和負載均衡等問題。特別適合以中小文件(建議範圍:4KB < file_size <500MB)爲載體的在線服務,如相冊網站、視頻網站等等。在UC基於FastDFS開發向用戶提供了:網盤,社區,廣告和應用下載等業務的存儲服務。分佈式
FastDFS架構:高併發
FastDFS服務端有三個角色:跟蹤服務器(tracker server)、存儲服務器(storage server)和客戶端(client)。源碼分析
tracker server:跟蹤服務器,主要作調度工做,起負載均衡的做用。在內存中記錄集羣中全部存儲組和存儲服務器的狀態信息,是客戶端和數據服務器交互的樞紐。相比GFS中的master更爲精簡,不記錄文件索引信息,佔用的內存量不多。性能
storage server:存儲服務器(又稱:存儲節點或數據服務器),文件和文件屬性(meta data)都保存到存儲服務器上。Storage server直接利用OS的文件系統調用管理文件。學習
client:客戶端,做爲業務請求的發起方,經過專有接口,使用TCP/IP協議與跟蹤器服務器或存儲節點進行數據交互。
Tracker Server:跟蹤服務器,主要作調度工做,在訪問上起負載均衡的做用。
Storage Server:存儲服務器(又稱數據服務器)。
ps:這樣的架構具備如下特色:1.輕量級(相比GFS簡化了master角色,再也不管理meta數據信息)。2.對等結構。3.分組方式。
FastDFS協議:
FastDFS角色間是基於TCP/IP協議進行通訊,協議包格式爲:header + body。具體結構如圖:
FastDFS各節點間都是經過tcp/ip的方式來進行通訊的。
協議包由兩部分組成:header和body
上傳機制:
同步時間管理:
當一個文件上傳成功後,客戶端立刻發起對該文件下載請求(或刪除請求)時,tracker是如何選定一個適用的存儲服務器呢?
其實每一個存儲服務器都須要定時將自身的信息上報給tracker,這些信息就包括了本地同步時間(即,同步到的最新文件的時間戳)。而tracker根據各個存儲服務器的上報狀況,就可以知道剛剛上傳的文件,在該存儲組中是否已完成了同步。同步信息上報以下圖:
下載機制:
精巧的FID:
說到下載就不得不提文件索引(又稱:FID)的精巧設計了。文件索引結構以下圖,是客戶端上傳文件後存儲服務器返回給客戶端,用於之後訪問該文件的索引信息。文件索引信息包括:組名,虛擬磁盤路徑,數據兩級目錄,文件名。
ps:
組名:文件上傳後所在的存儲組名稱,在文件上傳成功後有存儲服務器返回,須要客戶端自行保存。一個組下能夠有多個storage,我感受組就是爲管理storage的
虛擬磁盤路徑:存儲服務器配置的虛擬路徑,與磁盤選項store_path*對應。
數據兩級目錄:存儲服務器在每一個虛擬磁盤路徑下建立的兩級目錄,用於存儲數據文件。
文件名:與文件上傳時不一樣。是由存儲服務器根據特定信息生成,文件名包含:源存儲服務器IP地址、文件建立時間戳、文件大小、隨機數和文件拓展名等信息。
快速定位文件:
知道FastDFS FID的組成後,咱們來看看FastDFS是如何經過這個精巧的FID定位到須要訪問的文件。
經過組名tracker可以很快的定位到客戶端須要訪問的存儲服務器組,並將選擇合適的存儲服務器提供客戶端訪問;
存儲服務器根據「文件存儲虛擬磁盤路徑」和「數據文件兩級目錄」能夠很快定位到文件所在目錄,並根據文件名找到客戶端須要訪問的文件。
本次分享的主要內容包含:FastDFS各角色的任務分工/協做,文件索引的原理設計以及文件上傳/下載操做的流程。經過這次學習咱們對FastDFS有了初步的瞭解,如:
FastDFS只有三個角色;且跟蹤服務器和存儲服務器均不存在單點。
跟蹤服務器被動的接收存儲服務器彙報,對存儲服務器進行分組管理;併爲客戶端選定適用的存儲服務器。同一存儲服務器能夠同時向多臺跟蹤服務器彙報狀態信息。
存儲服務器組內全部存儲服務器是對等關係,存儲的數據一一對應且相同;全部的存儲服務器均是同時在線服務,極大的提升的服務器的使用率,分擔了數據訪問壓力。