摘要: 本地大數據服務是否進入消失倒計時?雲平臺大數據服務最終到底會趨向多雲、混合雲仍是單一公有云?集羣規模增大,上雲成本將難以承受是誤區仍是事實?InfoQ 將就上述問題對阿里雲智能通用計算平臺負責人關濤進行了專訪。數據庫
一家企業何時會決定上雲?過去,這個問題的答案多是當企業發現須要購買新的硬件進行新一輪資本投入時,每每傾向於考慮另外一種替代方案,好比雲,這可能更多仍是從成本方面考慮;或者,當企業出現某種彈性計算需求時,雲平臺是很是好的實現 IT 資源「削峯」的方案。安全
不一樣於現有技術邊界的「替換」,現在,這個問題的答案能夠再加上一條:技術邊界的「擴張」。當企業須要某種能力,好比 AI 或者大數據,但自身技術實力達不到或者企業核心競爭力不在技術自己,此時就可能會考慮上雲,甚至這已經成爲很多企業選擇雲平臺的重要緣由。經過選擇雲平臺,企業實現了本身技術邊界的擴張,從而爲業務邊界擴張提供技術上的保障。微信
過去幾年,雲平臺大數據服務愈來愈成熟,單就這一項,主流雲廠商可提供的服務列表就達到數十種,本地大數據服務的聲音彷佛愈來愈弱,這在 Cloudera 與 Hortonworks 合併以後尤其明顯。有分析人士指出,Hadoop 與 Spark/Flink 等流技術的融合已經在雲平臺發生,這讓 Cloudera 和 Hortonworks 的基礎產品出現落後。巧合的是,Spark 商業化公司 DataBricks 選擇了一條不一樣於 Cloudera 與 Hortonworks 的軟件發行之道,DataBricks 一直堅持走雲上訂閱方式,從而在商業上更加領先。據此,本地大數據服務是否進入消失倒計時?雲平臺大數據服務最終到底會趨向多雲、混合雲仍是單一公有云?集羣規模增大,上雲成本將難以承受是誤區仍是事實?網絡
InfoQ 將就上述問題展開系列探討,追蹤採訪數位行業內雲計算和大數據相關方向技術專家,從他們的觀點中獲取答案。本期採訪嘉賓——阿里雲智能通用計算平臺負責人關濤。架構
在對比雲平臺和本地大數據服務以前,咱們先來探討一個基本問題:不一樣量級、不一樣技術能力的企業是否都適合上雲,這也是企業上雲以前必須想明白的問題。咱們常常聽到一句話:將來的雲計算會成爲像水電煤同樣的基礎設施,暫且不論這句話是否徹底正確,中國目前的上雲進程的確在加快,若是要成爲必備基礎設施,勢必須要匹配全部量級、全部技術能力的企業。運維
對於互聯網初創型企業,其特色是業務模式和規模高度不肯定,數據量小,計算場景不肯定,資金有限且沒有本身的數據技術力量。關濤表示,對這類型企業而言,雲大數據服務能夠幫助下降大數據使用門檻,讓企業將有限的人力和物力都放在業務層面,快速搭建併爲不肯定的將來發展預留彈性能力。這種類型的客戶的需求關鍵字是:靈活和全面。工具
對於中大型互聯網企業,其一般擁有本身的集羣和數據,業務相對穩定且有 SLA 要求,甚至具有很是成熟的數據團隊,這部分企業的技術能力或許足夠知足業務需求,上雲所能帶來的好處就是下降甚至免除運維,保障 SLA 並提高安全能力,同時在性能、彈性等方面提供更低成本的服務。 需求關鍵字:穩定和成本。oop
對於傳統客戶,這部分企業每每更加謹慎,且原有數據中心較爲龐大,總體遷移須要考慮的因素很是多,一般須要一整套解決方案,這部分企業每每也最在乎雲計算的成本、穩定性和安全性等問題。需求關鍵字:解決方案。性能
成本大數據
雲計算自己是一個須要重投資的領域,雖然有很多公司加入,但排名靠前的依舊集中於幾家資本和技術力量比較雄厚的公司。相對於本地大數據服務,雲平臺大數據服務的性能、穩定性、成本和安全性一直是討論的焦點。關濤表示,雲廠商在數據中心選址基建(例如須要綜合考慮電力成本和容量因素)、硬件建設、帶寬網絡建設(例如須要獨立雙鏈路網絡保證)、存儲、CDN 分發、安全加固等方面都投入了巨大精力,資本投入在百億甚至千億級別,中小企業自建服務的資本和技術投入顯然沒法達到這一程度。
對於中小企業而言,上雲是個相對輕鬆的話題,首先數據資產量小尚可輕鬆挪動,且可享受雲廠商帶來的技術優點;其次,業務體量相對較小,總體使用成本較低。可是,很多人認爲「當集羣規模達到必定程度,雲平臺的成本會變得很是高」。對此,關濤認爲,雖然雲計算是個按需付費的資源,但小型數據中心的硬件啓動成本並不低,若是企業自行搭建,還須要考慮其中的人力成本,這部分隱性成本常常被忽略。
從軟件層面來看,主流雲廠商在技術層面的投入很是大,這不只僅是技術研發層面的資金支持,阿里雲平臺所提供的服務大都在內部業務通過長時間試運行,達到穩定之後纔開放給用戶,這是普通公司很難達到的,尤爲是中小企業的基礎設施上雲很難投入到這個級別,集中力量打造業務層面的差別性優點纔是這類型企業的立足關鍵,而不是糾結於底層的基礎設施。
固然,若是企業具有必定線下集羣,上雲確實須要必定工做量和遷移成本,這包括網絡打通、數據、做業、應用遷移等。線下規模越大,工做量就越大,這是目前阻礙企業上雲的重要挑戰。關濤表示,這部分工做實際上是階段性的,隨着雲技術的發展,企業能夠直接或間接享受技術紅利。此外,雲廠商提供了很多遷移技術,好比多種類型的數據運輸與搬遷工具,基於專線的數據上傳和混合雲技術等。
安全
安全是企業對雲計算最先也是最大的顧慮,上雲確定沒法徹底規避安全風險,但若是和自建機房相比,雲平臺至關於多了一重保險。若是企業自建機房,部署某個版本的 Linux 系統,也不見得將補丁打全,一樣存在安全風險。關濤表示,阿里雲在安全方向(包括內核漏洞修補、DDos 防禦、主動漏洞掃描、權限管理、隱私保護等)上有很是大的投入,安全性比自建要好的多。
對於一些互聯網企業而言,並不糾結是否上雲,而是在考慮選擇雲廠商提供的大數據服務仍是選擇基於雲平臺自建,這些企業每每具有必定技術能力並擁有原始業務積累。關濤認爲,從業界來看,美國大多數互聯網企業已經放棄自建數據中心而大規模應用雲技術,例如 NetFlix 已經將全部業務遷移至公有云;專一專有云和 IaaS 的 Cloudera 和 Hortonworks 已經合併過冬。
從發展趨勢來看,這是一個雲服務逐步成熟與客戶認知逐步發展的過程,就比如每一項新技術都通過了長期市場論證同樣。關濤認爲,客戶認知應該會從最開始的懷疑(安全性、穩定性等)到逐步嘗試,到上雲,再到大規模依賴;從數據中心和主機託管,到依賴 IaaS,再到大規模應用無服務計算、PaaS 和 SaaS;從專有云部署到混合雲,再到公有云。
其次,隨着大數據與 AI 技術的發展成熟,雲廠商在該領域的競爭優點已經逐步從「能作」變成「又快又好」。雲計算廠商的規模優點可以創建更高的競爭門檻,這是不少企業自建所達不到的。
當企業肯定選擇雲廠商提供的大數據服務時,又會出現新的問題:如何從這麼多種雲平臺大數據服務中選擇最符合本身業務發展需求的?是選擇混合雲、多雲仍是單一公有云平臺?
去年,一貫對混合雲不感興趣的 AWS 推出了很多混合雲服務,這讓很多企業開始推測雲計算的將來將是混合雲或者多雲。對此,關濤更傾向於多雲和混合雲皆是中間過程,最終的大方向應該是單一公有云的觀點。他補充道,不管是混合雲仍是多雲都存在跨雲管理的問題,用戶須要適配一套或者多套雲系統,並將系統間數據和業務打通協調,比本地或者單一雲平臺更加複雜。
現階段,依照用戶需求不一樣,本地部署、混合雲(做爲中間形態)與雲平臺部署三種狀況均可能出現。可是,長期來看,隨着雲平臺的逐漸成熟和用戶承認,從成本和效率角度出發,單一雲平臺或許會是主流。
關於公有云平臺,企業主要顧慮的問題就是單一供應商綁定。一旦綁定,數據和業務遷移困難,後續發展可能缺少選擇;一旦雲平臺出現故障,是否有異構容災能力,是否會對業務形成不可逆的影響等。
關濤認爲,現在的雲服務分層解耦愈來愈清晰,各基礎服務接口將來會更加標準,例如容器化和 K8S 等,這些標準化服務會大幅下降用戶被單一雲平臺綁定的顧慮。此外,主流雲廠商已經在提供必定程度的異構容災能力,例如阿里雲的 3AZ 方案,能夠保證跨數據中心的可靠性,技術上可以知足異構容災需求;若是用戶追求極致容災能力,有可能選擇混合雲或者多家雲廠商,這須要在多雲平臺之上,再作一層數據管理和業務同步邏輯,會給架構帶來很大的技術和成本壓力。固然,這還最終取決於用戶的需求,只是目前這種選擇應該比較少,例如,在金融數據庫領域,企業不多同時選擇兩種數據庫方案。
結語
從長線來看,關濤認爲,用戶自建本地大數據服務會逐漸消亡。就國外雲計算的發展進程來看,不少大企業選擇上雲看重的可能並非 IaaS 層面的能力,而是大數據和 AI 等偏上層的能力,這些現象足以說明用戶不只會用 IaaS 的能力,而且可能會被上層能力吸引。
據此,阿里雲大數據服務接下來將集中對以下幾方面進行改進:一是做爲大數據引擎,隨着數據爆發式增加和計算的無處不在,性能、成本、擴展性和穩定性仍然是技術重點;二是非文本類數據的處理能力,包括識別、處理音、視、圖等新數據格式,例如短視頻推薦場景;三是非關係型數據處理,例如圖計算、Graph Embedding;四是 AI for BigData,好比在海量數據的前提下,基於 AI 的智能數據管理、智能建模與數據優化等。
各位網友,你如何看待雲平臺和本地大數據服務之間的關係呢?你所在的企業又是如何選擇的呢?
本文轉載於InfoQ,原文連接https://www.infoq.cn/article/i8BVDSC9WAcOT*yuqxJH
瞭解阿里巴巴大數據計算服務訪問 https://www.aliyun.com/product/odps
原文連接 更多技術乾貨 請關注阿里云云棲社區微信號 :yunqiinsight