隨着 5G+IoT 時代來臨,產生數據的主角除了人類還有海量的物理設備,相比 4G 移動互聯網的短視頻、直播等,會有更大量的數據產生。據 IDC 發佈的《數據時代 2025》的預測,全球每一年產生的數據將從 2018 年的 33ZB 增加到 2025 年的 175ZB,每一年新增約 20ZB,若是使用 8T 的磁盤,只保存一份副本,每一年須要 25 億塊磁盤,數億臺主機。數據庫
這些數據大多以視頻、圖片、文本等非結構化形式存在,並須要妥善保存以作後續利用。爲此,數據的存儲載體須要具有隨時隨地上傳、安全、可擴展以及低成本的特性。目前,對象存儲是這些海量非結構化數據最好的存儲載體。安全
UFile:作 Costco 式的對象存儲網絡
UFile 是 UCloud 2015 年推出的對象存儲產品。過去一年間,UFile 從總體上作了一次較大升級,推出很多功能特性和優化,更好地知足用戶對海量非結構化數據的需求。這一過程當中,UFile 將其產品理念歸納爲 「成爲 Costco 式的存儲」,爲何是 Costco 式的?架構
圖:UFile 控制檯界面tcp
前段時間量販式倉儲會員店 Costco 在國內火爆開業,在一個既不缺線下商超、同時線上電商更是遍地開花,市場競爭異常激烈的中國市場,Costco 靠什麼去切入用戶?雷軍是這麼評價 Costco 的:「Costco 這麼多年所向披靡的最重要緣由就是抓住了其存在的本質,商品作到極好,價格作到極低,服務作到超預期。」工具
這個理念也一樣適用於對象存儲領域,UFile 把用戶最本質的需求歸納爲 3 點:極高的可靠性和性能、極低的成本以及極優的體驗。oop
對象存儲的三個典型案例性能
在介紹 UFile 以前,咱們先來看看 AI、大數據和 IoT 場景下的 3 個案例:大數據
1優化
某傳統金屬件加工企業本來有這樣一項業務:員工人力摘撿不合格產品。如今,該項業務轉變爲拍照取證+AI 智能檢測的方式,相較以前大大節省了企業的人力投入成本,並下降了人工檢測的偏差。同時也產生了一項新需求:全部圖片數據需保存 25 年以供後續質保檢驗。
用戶的需求:如何保證數據長時間存儲的高可靠需求?
2
某大數據分析企業積攢了數個 PB 的大數據,在完成分析後這些數據的訪問量降到較低,但在一段時間內仍需存儲保留原始數據或者分析後的中間數據。對企業來說,這數 PB 的數據存儲將會是一筆不小的開銷。
用戶的需求:如何實現海量數據的低成本存儲需求?
3
某城市地鐵天天停運後都須要人工沿地鐵進行檢修,效率較低且須要大量人力的投入。所以計劃引入 IoT 技術:在地鐵中部署一些傳感器,檢測地鐵的聲音、溫度、圖像、視頻等,數據使用 4G 網絡隨時隨地上傳到雲端存儲,解決人力工做成本並提升檢修效率。
用戶的需求:這些分散在地下各處的傳感器如何方便、安全、低延時的進行數據的上傳?
咱們總結了這三個案例的關鍵字:高可靠、低成本、使用體驗,下面咱們來詳細介紹 UFile 在這三方面所作的工做。
一 、數據高可靠
一、多副本 + 同構的冗餘機制
首先,UFile 採用 3 副本和糾刪碼技術,能夠確保數據在兩塊磁盤損壞的時候數據不丟失。不一樣於相似 Ceph 異構的數據分佈技術,UFile 3 副本技術採用同構的數據分佈方式,這種同構的數據分佈能夠保證數據更高的可靠性。
圖:同構與異構數據分佈對比
從上圖可知,同構狀況下只有集羣 a 或者 b 同時損壞 2 種丟失數據的可能狀況,而在異構結構下有 6 種丟失數據的組合狀況,同構的可靠性顯然更高。
二、跨地域的數據災備
UFile 是一個地域級別的存儲產品,爲了更好的提供數據災備能力,UFile 今年推出了跨地域的災備功能:支持 3 個及以上的地域複製,複製方式包括鏈式結構(A->B->C)與技術實現更復雜的環式結構(A->B->C->A)。環狀結構的優勢是可以支持更多地域的讀寫,並知足就近讀寫業務的需求。
圖:多地域複製及就近讀寫功能示意
三、故障處理機制的完善和創新
除此以外,UFile 還在故障的快速發現和恢復上作了很多創新。除應用常規的硬件和軟件層面的監控幫助用戶快速發現數據異常外,UFile 採用 Set 化的架構設計,當出現機器或磁盤故障時,能夠將該 Set 集羣設置爲只讀,從而下降該 Set 集羣的業務負載,幫助恢復程序以最快的速度恢復故障磁盤或機器,大大提升數據的可靠性。
二 、業務低成本
一、對象級別的分層存儲
UFile 採用專門的存儲機型,存儲密度更高,單位存儲的成本最低可降到計算機型的 15%。同時採用糾刪碼技術,在確保數據可靠性的前提下,存儲成本可下降到 3 副本冗餘機制下的 40% 左右。
此外,UFile 還對數據分層和數據生命週期管理進行了優化,致力於從數據分層存儲的角度進一步下降用戶存儲的成本。
用戶業務每每同時存在高頻和低頻訪問的數據,而相同數據在不一樣生命週期也存在不一樣的訪問頻率。一個剛產生的高頻訪問的數據,隨着時間的推移訪問頻率每每會逐漸減低,數個月後即可能從高頻轉爲低頻。不一樣訪問頻率的數據可採用不一樣成本的存儲方案。
業內早期的解決方案是經過支持熱、溫、冷 3 種存儲產品來知足不一樣頻率訪問數據的要求,用戶分別在 3 種存儲產品上建立 Bucket,而後根據數據的訪問頻率放置到對應的 Bucket。按照用戶設置的時間規則,在不一樣時間點數據會在 3 種 Bucket 進行遷移。這種解決方案雖然解決了數據存儲的成本問題,可是缺點在於對業務不太友好,須要業務感知這種變化。
圖:傳統的分層存儲數據流轉示意
針對該問題,UFile 在今年推出了對象級別的分層存儲方案。和傳統解決方案不同的是,UFile 支持同個 Bucket 中同時存在熱、溫、冷 3 種數據,用戶能夠將同個業務中的 3 種數據上傳到同個 Bucket,同時數據訪問頻率發生變化後還會保留在同個 Bucket 中。
這種方案對用戶的業務更加友好,並且也爲後續即將推出的數據自動化分層管理奠基了良好的基礎。用戶不少時候沒法區分數據的冷、熱程度,或者沒法準確的預測數據何時開始變冷,而更好的作法是將這些工做交給後臺程序自動完成,這樣可讓用戶享受到最低的存儲成本。
圖:UFile 分層存儲方案數據流轉示意
二、自建大數據存儲與 UFile 歸檔存儲的成本對比
咱們回到開頭的大數據用戶的場景,該企業現有 5PB 的數據量,由於用戶的數據訪問頻率較低,因此推薦採用 UFile 的歸檔存儲方案,下表是使用自建大數據存儲和 UFile 歸檔存儲方案成本差別對比。
事實上,咱們尚未考慮數據逐漸增加的過程,對象存儲是按需付費的,實際使用多少資源纔會支付多少費用,而自建大數據存儲每每會存在資源和成本的空閒浪費。所以,針對海量數據的冷存儲,UFile 歸檔存儲方案可以提供更高的性價比。
三 、產品體驗優化
一、數據安全 + 高質量網絡保證
移動設備和 IoT 設備都有隨時隨地上傳的需求,而隨時隨地的上傳則對數據安全和網絡質量都提出了更高的要求。
針對該需求,首先 UFile 支持 Https 協議,支持用戶使用公私鑰或者 Token 的方式來隨時隨地的傳輸數據、確保數據的安全性。
其次,UFile 已在全球 10 多個國家和地區分佈有節點,覆蓋國內主要城市和國外主要國家,按照規劃 UFile 後續還將覆蓋到更多地區和國家。國內外的數據節點均採用 BGP 機房或者運營商節點機房,可以提供高質量的網絡保障,確保用戶數據上傳過程當中的穩定和低延時。
圖:UFile 全球數據中心分佈
二、用戶接入體驗優化
目前 UFile 的 SDK 覆蓋了主流的開發語言,並分別支持 iOS 和 Android 移動端。同時 UFile 還兼容了經常使用的 S3 協議,支持第三方用戶態網絡文件系統訪問 UFile,如 S3fs、Goofys,這樣用戶能夠像使用本地文件系統同樣使用對象存儲。相比本地文件系統,以 UFile 爲存儲池的用戶態網絡文件系統能夠爲用戶帶來更大的存儲空間和更低的存儲成本。
圖:經過 Goofys 把某個 Bucket 掛載成文件系統並操做
圖:經過 Goofys 寫 UFile 後的效果
三、各種應用場景下的定製化解決方案
此外,UFile 還提供了各種經常使用應用場景和備份場景的定製化解決方案:
針對多媒體場景,UFile 結合 UCloud 全球 500 多個 CDN 節點,給用戶提供高質量的視頻和圖片類服務。
針對大數據場景,UFile 推出了計算存儲分離的方案,使用 UFile 來替代 HDFS,計算層只需修改配置文件便可完成替換。
在 UCloud 今年推出的重量級數據分析產品 USQL 中便採用了計算存儲分離的解決方案,對計算和存儲都採用按需計費的方式,大大下降了大數據分析的成本。同時 USQL 依託於 UFile 強大的 IO 能力,以及無限存儲容量,實現了海量數據的快速分析。
針對備份類的場景,UFile 提供了 Hadoop 冷數據備份場景、MySQL 數據庫備份和恢復場景、ES 日誌備份的場景、網站文件備份場景等解決方案,幫助用戶輕鬆完成數據備份。
Hadoop 冷數據備份場景實例分析:
Step1
圖:Hadoop 集羣中的文件在 UFile 的某個 Bucket 中不存在
Step2
圖:經過 distcp 工具有份至 UFile 的某個 Bucket 中
Step3
圖:備份成功後能夠在 UFile 控制檯看到該文件
結語
最後,針對海量非結構化數據,除了數據高可靠、低成本以及良好的使用體驗,還有一個很是重要的需求即是高性能。特別是在引入生命週期和目錄功能後的列表查詢場景以及相似網絡攝像頭的大量寫入及刪除類的場景,對索引和存儲的性能提出較大的挑戰。
UFile 目前已經上線了目錄功能和生命週期功能,大批量刪除的性能也相比以往有較大的提高。後期咱們還將專門介紹這兩類場景下索引和存儲的優化工做,敬請期待。