HDFS - 文件愈來愈多怎麼辦

隨着業務的發展,服務器存放的文件就愈來愈多,初期的時候,咱們會直接經過擴容來解決這個問題。可是硬盤不可能存放將來全部增量的文件,而且硬盤不可能無限擴容,當硬盤分配完後,要麼加硬盤,要麼加服務器。
加硬盤多是比較快的方式,只要在程序中判斷在某個時間節點的文件,寫入和讀取都在指定的盤符就能夠了,可是每一個機器的接口有限,並且機架能夠存放硬盤的位置也有限,當接口或者位置都佔用了,空間不足要怎麼辦?因此能夠用不少不少個服務器來存放並管理這些文件。
因爲服務器出現問題是不可避免的,好比咱們軟件的bug、操做系統的bug、硬盤故障、忽然斷電甚至天然災害等,因此爲了保證數據的安全性,就須要用冗餘的辦法來存儲,也就是說一個文件存放在多個服務器中,好比下圖存放2個服務器,這樣當服務器1出現問題的時候,咱們還能夠從服務器2讀取文件。冗餘的副本越多,數據就越安全,固然存儲的服務器成本也越高。
image.png
當存放一段時間後,服務器的狀況以下,文件的大小咱們是不能控制的,因此每次上傳文件的時候,還須要知道這個文件是否大於待上傳服務器的可用空間。另外大小不一的文件也很差管理。
image.png
因此通常是把文件分紅固定的大小塊,好比64M或者128M,而後再上傳到服務器。好比下圖,把文件分紅4塊,而後存儲在4個服務器中,每一個塊的副本是3個。
若是說服務器1不可用了,文件一、文件二、文件4在其餘服務器仍是存在副本的,文件仍是安全的。
image.png安全

相關文章
相關標籤/搜索