做爲近期火爆的話題之一,snowflake的上市無疑吸引了不少人的眼球。那在其高漲的市值背後,又有着什麼樣的緣由?它會一直火爆下去嗎?雲計算、大數據,這些彷佛已經有些落伍的概念,爲什麼又從新吸引了人們的眼球?本文綜合了多篇資料,嘗試從更多角度加以解讀。
數據庫
1. 初識Snowflake公司安全
1).基本狀況:雲數據服務公司網絡
Snowflake Inc.是一家成立於2012年,總部位於加州聖馬特奧,主營雲數據存儲的創業公司,旨在爲客戶提供一種基於雲計算的數據存儲、管理和分析服務。Snowflake在新加坡、加拿大、印度、美國和西歐設有25個辦事處,員工總數達1400餘人。它的啓動資金爲90萬美圓,但在建立當年,就拿下了 500萬美圓的融資。架構
上圖是摘自Snowflake公司官網。從中能夠看出,Snowflake主要提供雲計算數據倉庫解決方案,包括數據處理的多樣化服務、數據擴容、數據計算資源動態整合、多區域多雲以及數據的安全無縫共享。其產品能將原有的本地數據平臺升級成爲創建在Azure、AWS、GCP雲廠商的解決方案,併爲企業提供高性能、易擴張的環境去存儲大規模的信息。運維
2).融資狀況:多輪看漲,一路向上機器學習
Snowflake過去共經歷了8輪融資,從上圖中不難看出其估值的快速增加。這裏面不乏紅杉資本、巴菲特、Salesforce這些市場熱點話題。目前仍處在虧損狀態的Snowflake,在IPO階段引來了巴菲特以及SaaS巨頭Salesforce兩家公司的雙雙押注。股神巴菲特和Salesforce的投資放大了這種看漲情緒,散戶投資者紛紛買入該股。對於巴菲特近些年來一改過去長期投資、穩定保守風格,積極進駐科技股、概念股、創投股,這次投資Snowflake正是看好科技股概念。而Saleforce的出手,則背後含義更多。Salesforce近年來在資本市場上頻頻出手,2009年成立至今,已經超過500個投資,今年前半年剛剛完成對Tableau的收購。Salesforce正在積極佈局以數據爲中心的SaaS生態體系,CRM自己就是對客戶數據的管理,而Tableau見長於數據可視化展示,而Snowflake會擁有客戶的整個數倉數據。編輯器
3).創始團隊:專業+行業+投資大咖組合工具
Snowflake管理者從左到右:聯合創始人Benoit Dageville,首席執行官Frank Slootman,聯合創始人Thierry Cruanes和首席財務官Mike Scarpelli。創始人們在2012年創立Snowflake的時候,都有20年左右的工做經驗。該公司首席執行官弗蘭克•斯洛特曼(Frank Slootman)在加入Snowflake以前已退休,此前他曾於2019年將ServiceNow和Data Domain帶領上市。他接任的首席執行官鮑勃·穆格里亞(Bob Muglia)曾在微軟待了23年,擁有豐富的數據庫經驗。說ToB行業越老越吃香並不爲過,經驗大於一切。如此深厚的資歷、數據庫領域的專業深度、硅谷技術圈、投資圈的人脈積累,都是Snowflake 成功IPO的要素。oop
4).業績表現:高速、健康、將來可期
業績高速增加
《業績增加曲線(百萬美圓)》(來源:招股書)
雖然仍在虧損狀態,但Snowflake的淨虧損已有收窄跡象:今年1月底,公司淨虧損爲3.485億美圓,截至今年7月末,淨虧損降至1.772億美圓,毛利率由去年1月的46.5%升至61.6%。虧損收窄以外,爆發式增加的業績更引人注目:2020財年,Snowflake的營收爲2.65億美圓,同比增加174%。到2021財年上半年即截至今年7月末,其營收達到2.42億美圓,同比增加133%,第二季度收入同比增加121%,預計整年營收或將超5億美圓。
用戶結構健康
《單客戶平均銷售額(美圓)》(來源:招股書)
續約率越高、服務的客戶越大型、客單價越高,意味着SaaS廠商的利潤更高,模式越健康。截至2019年和2020年7月31日,在過去12個月產品收入中貢獻超過100萬美圓的客戶數量分別從22個增長到56個,說明Snowflake在大客戶中的承認度很高且在不斷提高。
5).技術架構:存算分離,服務獨立
存儲層(Storage)目前支持AWS S3和Azure Blob。全部數據在存儲層被所有加密以及columnar壓縮,最大限度的優化存儲效率。理論上講,存儲層能夠在無關計算資源的狀況下進行無限擴容,因此咱們不須要加任何節點就能自動沉澱全部數據,這也是爲何Snowflake也能夠做爲data lake的緣由。
計算層(Compute)由諸多virtual warehouse組成,其本質就是處理數據的虛擬機節點。Snowflake很貼心地用T-shirt尺寸定義了算力,相比較其餘雲計算資源,極大地簡化了provision的過程。因爲計算層獨立於存儲層存在,咱們能夠想象出不少傳統架構中遇到瓶頸的應用場景。譬如能夠隨時提升或下降計算資源以應對需求,能夠在搬運數據的同時進行查詢,能夠給各個LOB提供合適的資源並獨立出ETL和DevOps的處理需求。而最使人興奮的是,這些不一樣計算資源看到的都是同一版本的數據。
服務層(Services)的獨立是另外一個Snowflake走在正確道路上的緣由。它由衆多global services組成,涵蓋了咱們傳統意義上數據倉庫的諸多admin任務,包括operation management,optimization,tuning,security,availability,metadata,caching等等。這一層還有transaction management這個重要的使命,對全部計算層的virtualwarehouse進行管理,保證不一樣的數據處理請求被高效穩定地應用在存儲層的同一數據上。服務層解決了數據倉庫易用性的問題,目前我尚未看到任何一款數據平臺產品可以幫用戶處理這麼多的非功能性任務。即便是同爲雲數據倉庫的Azure Data Warehouse,須要的管理和運維成本不可同日而語。
總結一句,Snowflake在公有云廠商即IaaS上再建了一個高擴展且集中管理的數據倉庫—是雲設施上的雲。
2. Snowflake公司上市
1).上市表現:美股今年最大IPO
Snowflake (NYSE:SNOW)於美國時間9月16日,在美國紐交所上市,發行價爲120美圓,首日開盤翻倍,開盤報245美圓,上市首日市值高達708億美圓。截止10月23日(美國時間),其股價爲265.05美圓。下圖是snowflake僅一個月來的股價變化。
在股市優異的表現背後,對比下一樣來自數倉倉庫的另兩家企業。Teradata,老牌數倉廠商,已發展四十餘年,連續十年數據倉庫領域領導者廠商。Cloudera,大數據生態領導廠商,2018年與Hortonworks合併,是Hadoop的表明性廠商。Teradata,2019財年營收爲18.99億美圓,但當前市值僅爲27億美圓;成立於2008年的Cloudera,其2020財年營收達7.94億美圓,而當前市值也僅有39億美圓。即便僅以snowflake的較低市值估算,三者的對比也是驚人的。下圖來自36氪據公開資料整理。
爲何人們對snowflake的預期這麼高呢?
2).市值高的緣由
概念突出:雲計算+大數據
從上圖中可見,隨着時代的變遷,市值高的企業呈現明顯的行業特色。近些年來,以互聯網軟件爲表明的企業處於風頭浪尖。這其中又以人們常說的ABCD,最爲最煊赫一時。所謂的「ABCD」,即「AI」、「Blockchian」、「Cloud Computing」、「BIgData」的首字母。Snowflake正是佔據了雲計算與大數據兩項概念加成。
業績突出:現狀良好+預期空間巨大
從以前對snowflake的介紹可知,其近段時間的業績表現良好。但更爲重要的是將來市場空間巨大,仍有很大上漲空間。根據Snowflake預測,截至2020年1月31日,雲數據平臺的潛在市場機會約爲810億美圓;根據IDC數據,數據管理和商業智能等分析工具的市場將在2020年末達到560億美圓,到2023年將達到840億美圓;Snowflake數據共享能力的市場目前還沒有被量化,潛力巨大。
3. Snowflake產品技術特色
受到如此火爆的追捧,snowflake從技術、產品直到戰略,都有着本身獨到之處。能夠說snowflake的發展過程,既是雲原生技術體系逐步商業化落地的過程,更是幾位領導者對」商業+技術」孜孜不倦的探索和追求,最終實現並釋放出巨大商業價值的過程。一切看似意外,實則瓜熟蒂落。下面我就擇其主要關鍵幾點加以說明:
1).抓住風頭,全棧上雲
雲計算技術正在重構整個IT基礎設施,做爲基礎軟件之一的數據庫也不例外。咱們能夠看到軟硬件在一切基礎設施中逐漸被解耦。硬件的更新迭代速度必然會進一步放緩或者變得不那麼重要,成本進而更加透明和標準。這一變革正在發生並不斷加速,有更多的用戶享受雲端帶來的便捷、彈性。而Snowflake很好地抓住了這一時間點。其首先完成的就是「ALL IN CLOUD」,搭上雲計算這趟高速列車。其所有云化的商業模式,將其與傳統企業級商業套件區別開來。由於其相信,將來必定是屬於公有云的。
咱們看個簡單的對比,以數據庫傳統巨頭Oracle、轉型者Microsoft和後來者Amazon在數據庫市場的變化趨勢能夠看到。雲戰略對數據庫市場發展的影響有多麼巨大。當年Oracle一家獨大的格局正以肉眼可見的速度被瓦解。再看看另一些後起之秀,專門爲機器學習和自動學習等大規模數據處理而生的Databricks(年初完成F輪融資,估值62億美金),以及託管文檔型數據庫公司MongoDB(當前市值156億美金)等等。
2).獨立自主,混合爲上
Snowflake在雲端的戰略上,沒有選擇本身構建雲基礎設施,而是將底層構建在幾乎全部主流公有云服務提供商。這也是Snowflake精準的判斷對了將來雲計算的發展形勢,必然在「多雲」環境。在大企業(尤爲是Snowflake針對的Fortune 500客戶)中,一般都是用混合雲架構,即便在管理上有各類不便,即便每一個雲廠商也都有與Snowflake競爭的產品(AWS Redshift, GCP BigQuery,Azure ADW);但就是由於大企業怕綁定到單一雲廠商,失去議價能力。Snowflake敏銳觀察到這點,從初始就選擇了技術獨立性,與多雲環境適配,這樣就能夠解決潛在的數據遷移這一雲計算的大難題。
不一樣雲廠商產品各有其優點,加之大企業內部關係複雜,使用混合雲策略,能夠很好地兼顧這些問題。這也是給第三方供應商提供了更好的機會。經過第三方供應商可以在雲上對線下及雲端、關係型和非關係型數據庫進行統一管理後,以往因爲被保存在不一樣地方而形成的數據孤島問題便消失了。與此同時,經過建立了一個統一入口,讓用戶可以按照以往訪問關係型數據庫的語言,對背後全部的數據庫進行訪問,幾乎不改變原有使用習慣,這樣大大下降了使用複雜度。
基於上面兩點,依託三大公有云廠商,Snowflake的「雲數倉」的架構讓客戶可以以低成本、高效率隨時擴容和縮容。Snowflake平臺還具備在任何雲上工做的優點,並容許客戶在不一樣的雲之間轉移數據,這是其競爭對手—「大型且成熟的公有云提供商,包括AWS、Azure和GCP」—難以提供的。
3).真雲架構,存算分離
從上世紀70年代後期提出的數倉概念後,一直存在兩個核心問題:存儲與計算。在以前的架構中,計算與存儲的能力是固定比例的,用戶在購買之初就進行了限定。可是隨着對數據分析需求的不斷增加、分析方式的不斷變化,這種固定比例的方式早已不在適用。隨着雲計算的興起,有很多廠商基於雲基礎設施構建數倉,但不少都是一種「僞雲」架構。以下圖是以AWS的redshift爲例,用戶申請的計算資源是與固定一組的存儲資源對應。計算資源與存儲資源可實現必定程度的ScaleUp和ScaleOut,但其仍是依賴於固定比例,而沒有作到真正解耦。
而Snowflake則徹底摒棄了這一點。基於三大公有云基礎實施,實現二者的徹底獨立。
4).收費後置,量化過程
做爲一般的系統軟件的計費方式,一般是須要按固定年費提早支付。尤爲對於成本節省型產品,但因爲沒法量化日後的使用程度或深度,客戶更加難以衡量投入產出比,因此仍會形成必定使用門檻。某種程度來說,這是對客戶的一種不公平。客戶常常抱怨,收費被前置,看不到效果;使用過程不透明,成本沒法量化。而Snowflake的商業模式,客戶再也不提早支付一筆固定年費,平臺將徹底根據客戶在使用過程當中實際消耗的計算和存儲用量進行結算—實現成本可測。 其次,基於對單位資源消耗的真實統計,客戶才能與傳統模式下各個環節的投入進行對比,最終得到跟報告裏同樣精準的ROI—實現回報可測。 而這種更爲真實的「按需付費」模式的背後,是一套全新的產品設計和技術架構。在成本覈算上,存儲成本已經比較透明,但計算的成本差別很大。用戶可根據自身的需求和預算選擇如何計算。經過對存儲和計算解耦,用戶的成本得以量化且可控。在計費模式上,存儲的價格跟其餘公有云並沒有差別,可是計算的價格則被分紅了八個等級(如同選購T-Shirt同樣),以便客戶根據需求單獨對存儲或計算擴容。而在需求降低時,平臺還自動爲客戶縮容。
以往使用公有云時,到底消耗了多少存儲和多少計算資源,任何廠商都不會向客戶透露。但在Snowflake這裏,存儲是存儲,計算是計算,服務是服務,構成了其產品的三層架構。
5).迴歸初心,定位數倉
Snowflake對本身的定位是一家企業「數據倉庫」的雲服務提供商。曾經有一段時間,各類各樣的數據使用理念層出不求。不過從近幾年的發展來看,你們視線逐漸清晰,迴歸數據的實質,發現企業的經營數據、結構化數據纔是數字化轉型的重中之重、立足之根本,因此技術路線都逐步調整在若是構建好大數據下的企業新一代數據倉庫之上。以Cloudera爲例,20十二、2013年紅極一時,如今的光景使人唏噓。因此,無可厚非的一點,大數據將來之路在於企業數倉這塊陣地的爭奪。Snowflake做爲擁有全新數倉技術架構的技術公司無疑切中了要害。
6).統一服務、數倉升級
Snowflake在依託底層的公有云基礎設施之上,構建了完善的數據服務能力。經過統1、標準化的服務,支持企業內部各種數據應用。與此同時,Snowflake還着眼於企業外部,在其客戶之間創建共享數據的平臺。造成具有必定網絡效應的數據共享平臺,更進一步發揮數據價值。將傳統數據倉庫的內容,進一步向外延伸…並造成以下圖所示的路徑。基於多雲架構,構建雲原生數據倉庫,再升級到雲數據平臺,並最終造成數據雲服務。真正實現了DaaS(Data as a Service)。
7).總結:數倉演進之路
從Snowflake的產品技術發展特色,能夠勾勒出數據倉庫演進的一條路徑。
Shared-disk DW
傳統數倉,受限於單機計算與存儲資源。後來,以Oracle RAC爲表明的Shared-disk架構,解決了部分計算資源不足問題,但針對存儲的容量、性能需求沒法知足。其巔峯表明就是Oracle Exadata。
Shared-nothing DW
隨之發展出的Shared-nothing架構,其大大突破了原有架構的規模限制,可提供很是大的存儲與計算能力。但二者仍然具備必定綁定關係,沒法徹底解耦;同時在彈性、性能、成本等上仍有不足。其典型表明就是Greenplum。
Half-cloud DW (IaaS)
以後出現的雲基礎設施,解決了部分上述問題。數倉可基於雲端環境進行構建,但實質上仍是基於底層Iaas能力,沒有解決根本性問題。其資源上沒有實現存算分離,仍然會致使數據自己大量的遷移。比較典型的產品是AWS Redshift。
Cloud-native DW(PaaS)
雲原生數倉,解決了存算分離的問題,從本質上解決了以往架構的痛點。用戶在容量、性能上幾乎沒有了限制。比較典型的如BigQuery。
HybirdCloud DW(DBaas)
在雲原生數據倉庫的基礎上,不在侷限在某一雲廠商,而是提供了多雲的能力,暴露出獨立的數據庫類的服務。例如Snowflake。
Cloud-service DW(SaaS)
暴露出獨立的數據倉庫服務,不在是以PaaS的形式輸出,而是以更高階的SaaS服務。用戶只需關心服務層面,而不用下沉到具體的計算資源、存儲資源等層面。例如Snowflake。
Data-service Cloud(DaaS,Data Cloud)
以數據爲主要核心的服務形式,不在侷限於底層細節處理。尚無產品達到這一階段…有些理想化吧
3. 寫在最後:方興未艾的數據(倉)庫市場
今天談到的Snowflake,只是數倉領域的一個縮影。從Snowflake受到資本市場的關注,能夠看出數倉(或者說數據分析領域)仍會是將來基礎設施中很是值得關注的方面。進一步說,數據自己將在將來發揮更大的做用。
韓鋒頻道:
關注技術、管理、隨想。
長按掃碼可關注
本文分享自微信公衆號 - 韓鋒頻道(hanfeng_channel)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。