咱們知道CDN護航了雙11十年,殊不知道背後有那麼多故事……

摘要: 一路走來,文景也曾疑惑過:爲何咱們不能把活動的時間跨度拉長到3天,或者1周呢?那樣咱們或許就沒必要冒着如此大的風險,承受平常峯值是10倍以上的壓力啊!然而當他走到如今才深入的體會到,正是由於這集中爆發的、一次又一次的業務洪峯,在拉着技術往前狂奔,這才鑄就了今天這支能戰能勝的技術團隊,技術應該感謝業務...

情不知如何而起,竟一往情深。
恰如咱們。
十年前,由於相信,因此看見。
十年後,就在眼前,看見一切。html

當2018天貓雙11成交額2135億元的大屏上,打出這麼一段字的時候,參與雙11護航的阿里雲CDN技術掌舵人姚偉斌(文景),心中涌起一絲莫名的觸動。程序員

CDN是最先參與天貓雙11的技術之一,伴隨雙11走了十年,回首十載春秋,不管是業務規模、技術架構,仍是這些幕後的工程師們,都發生了翻天覆地的變化。他們的故事雖不如《阿里雲這羣瘋子》一文中那般精彩,但也值得銘記!後端

技術掌舵人文景:雙11是技術小二最重要的事!

11月11日00:19分,文景看到做戰室的小夥伴們在輕鬆地交談後,他知道雙11的流量洪峯已經平穩地渡過了,他開始刷起了淘寶,他在爲24小時後的結束儀式採購龍蝦。緩存

不一樣於往年在光明頂(雙11做戰總指揮室)的忐忑和亢奮,今年文景團隊100多名做戰成員多了一份從容和鎮定,他們分佈在不一樣的辦公地,五地在線協同做戰。在文景看來,這些年,業務倒逼了技術發展,推進了我的成長。十年雙11磨出來的穩定的系統、成熟的做戰方案、默契的團隊配合,都是這個團隊一路走來,身上的不可磨滅烙印。網絡

(文景在雙11會場選購寶貝)

做爲CDN技術掌舵人,雖然文景不是團隊中最「老」的同窗,但他卻歷經了淘寶業務飛速發展的幾年,見證了從最初服務淘寶和集團內部的CDN,到現在國內服務客戶最多的雲CDN的每一步技術蛻變。架構

讀書時期的文景是個很是「愛折騰「的學生,去女生宿舍幫忙調通網絡,跟着導師接系統開發的「私活」,相對於從書本上汲取養分,他更偏心從項目錘鍊中獲取知識。慢慢地,他接觸到了嵌入式開發、無線傳感網絡、Linux、Nginx、Squid,向服務端開發轉型。而真正讓他感覺到做爲一個工程師的技術價值感的,是在作開源之後。「當時寫了不少開源模塊,有一些在Github上有了上千的STAR,我寫的代碼能幫到成千上萬的開發者,甚至有國外的開發者會給我寫感謝信,這不只讓技術獲得提高,也給了我十分強烈的認同感,也是由於開源,讓阿里看到了我。」在加入阿里後,文景負責的Tengine,曾一度躋身全球第十的WebServer。併發

很幸運,加入阿里的第一年他就遇上了雙11。對於當時的淘寶技術人來講,雙11是每一年最最重要的事情。「對咱們來講,最關鍵的就是在零點那一刻,系統要扛住,降級的措施越少越好「。文景回憶到,當時的技術原則:第一是要對業務有預估,幾千萬人同時併發的QPS是多少,系統能不能支持;第二,要作技術預案,全部依賴系統的容量是多少,一旦出了問題後的應對方案。」通過頭幾年雙11考驗後,系統逐漸具有了在極限的狀況下也能正常運行的能力,在高性能、穩定方面有很大提高。到後來,咱們技術能力已經遠超當年秒殺的規模,當前的技術架構已經足以支撐,全部的技術人這才安心了。「運維

啓航:重新手上路到一路狂奔

高級技術專家李克(空見)參與了整整十年的雙11,如今談起2009年的那個冬天,恍如昨日。「你們都是新手,該怎麼準備、怎麼配合,基本都是摸着石頭過河,CDN當時採用的是硬件方案,性能和靈活性還有很大的限制。誰也沒想到電商的業務發展的速度如此驚人,咱們的一部分節點水位基本都跑在崩潰的邊緣,當時真的是靠幾個運維值班同窗人工處理的方式撐了過來。」也就是在那年雙11以後,淘寶核心系統部門宣佈成立,將自研CDN提上了日程。異步

(空見在雙11護航現場與「戰友們」討論)

固然,技術的積澱並非一蹴而就。空見回憶道:每一年咱們都會預測第二年的峯值,可是每次都低估了電商的爆炸式增加。在這種高強度的業務壓力下,基本上全部的瓶頸都會被咱們遇到,內存、CPU、IO、網絡,來來回回作了不少輪軟件優化和節點架構升級。好比針對負載太高,增長先後端長鏈接機制,使得每一個鏈接能夠服務多個請求。爲了下降IO開銷,使用一致性HASH策略,將多個機器的磁盤統一使用。在單機上採起內存->SSD->SATA的多層存儲策略,動態進行冷熱資源的遷移,提高磁盤效率。爲了應對峯值壓力,咱們會提早準備業務鎖量、節點壓測、降級預案、採購臨時帶寬等多種措施。在咱們的監控和數據還不完善的那個年代,雙十一就靠每一個人打開多個終端,盯着一批節點,一旦發現機器負載太高,立馬進行人工干預。ide

就是這樣,團隊靠着盯屏+人工操做,艱難撐過前幾年,CDN架構不判定製、優化,團隊的技術實力一直在重重挑戰之中不斷攀升。

轉眼來到了2012年,文景認爲這一年對CDN很是關鍵:「第一,咱們決定再也不採用外部的商用CDN,由於咱們發現淘寶的流量,商用CDN是不足以支撐的。緣由是淘寶是中國第一個圖片這麼多的網站,當時的SSD機器尚未這麼流行,大部分的CDN廠商還在用SATA的機器,遇到數據量激增的時候,它的IOPS跑不起來,節點馬上會IOB掛掉。第二,當大部分CDN廠商都在用千兆機器,淘寶CDN已經在用萬兆機器,咱們是中國第一個使用全SSD機器的廠商,而且完成了40G的節點。當時的技術架構是很是領先的。」

演進:機遇和挑戰並存的日子裏

2013年,隨着CDN能力的加強,不少業務已經開始使用CDN,好比秒殺、紅包、詳情頁等,CDN可以offload大量的請求和帶寬,避免源站能力不足帶來的服務不可用。空見說到:這一年咱們在技術上實現靜態化和數據化,經過動靜分離,抽象出來靜態內容,緩存在CDN上,動態部分經過ESI回源異步獲取。靜態化改造以後,雙11扛住了數十倍的業務峯值流量。

在內部業務愈來愈豐富的同時,CDN的數據化也開始有了產出,初版的數據平臺可以針對每一個域名進行統計,提供節點、區域、運營商維度的五分鐘粒度數據,包含業務數據,如命中率、帶寬、QPS等,監控數據,如RTT、丟包率等。CDN告別了大鍋飯時代,開始了精細化的運營,這也爲後面CDN商業化提供了基礎。

直到2014年,CDN不只支持集團內部雙11,也開始服務外部客戶。空見很清楚地記得,在這年雙11,團隊內部搞起了流量競猜,工程師們爲此設計了一個預測系統,經過每一年雙十一的歷史數據,以及各業務線的預估和實際狀況,實時預測晚高峯流量,用來及時調整資源,好比當天上午11點就準確出來晚上高峯在多少T。

2015年對CDN團隊來講也一樣意義非凡,由於那一年他們險些背了3.25。

當時淘寶上了全站HTTPS,而因爲前期壓測、對新業務的評估沒有作到位,全站HTTPS帶來的計算開銷致使CPU、內存都開始成爲瓶頸。「當雙11開始後,別人都在爲數據再創新高而歡呼,咱們團隊的工程師卻眼睜睜的看着線上節點內存被打爆,不停重啓,當時我在客戶現場駐場,真的連死的心都有了。」文景回憶到。

當時的CDN團隊已經到了阿里雲,常常全中國處處跑,深刻客戶現場,貼身服務,整個團隊的工做重心再也不僅僅是爲雙11作方案和保障。「咱們從純碎的技術人,變成了須要有商業思惟的架構師,用CDN這個產品幫助客戶去解決問題。也正是由於如此,此次的經歷給咱們敲響了警鐘,後面每當新業務誕生的時候,咱們都作足了充分的預案,堅定避免再次重現,更毫不允許這種狀況出如今客戶身上。」

(CDN團隊2017雙11合影 左三空見 右三士豪 右六文景 )

在2016年,新興的直播、短視頻業務發展迅速,帶寬增速很是快,高級技術專家周哲(士豪)認爲,團隊在經歷過數年雙11的大考以後,已經開發出高性能、低延時、穩定的緩存系統,咱們有能力服務好這麼大規模的圖片業務,視頻業務固然也再也不話下。

「可是真正當有大規模的視頻點播業務上來以後,我才認識到對視頻點播場景理解不足。視頻點播對首屏、卡頓體驗,以及對總體命中率和回源保護有更高的要求。因而,咱們就經過對整個系統完善全鏈路監控、基於用戶體驗的調度、提升總體緩存命中率、TCP協議棧優化,來提升視頻播放體驗。」

本來專一網絡的CDN團隊,拉上了兄弟團隊,搞了小半年的技術攻堅,打磨出了直播全鏈路保障的方案。這套方案也成功應用在了天貓雙11晚會上,空見還記得在2016年團隊在護航天貓雙11晚會時,當TFBoy出如今屏幕上,帶寬直接飆升好幾倍,「這也是我第一次見識到了小鮮肉的威力!」

與此同時,優酷加入了阿里你們庭,這給CDN帶來了不少大文件加速、視頻加速的業務場景,讓整個團隊的資源建設和技術水平獲得了補充。在技術層面,也增強了CDN團隊對視頻業務場景的理解,完善視頻格式實時轉封裝、全網防盜鏈、內容版權保護、P2P等相關技術。

從2017年開始,阿里雲CDN走上國際化之路,進行大規模海外節點的建設,以知足國內用戶出海加速和海外用戶加速的需求。與此同時,在通過了2018俄羅斯世界盃、春晚等屢次重大活動的洗禮,CDN的團隊規模、客戶規模、技術實力一齊進階,整個系統的自動化、智能化、精細化程度與服務能力全面加碼,這支能戰能勝的團隊再次面對雙11的時候,已然很是自信從容。

現在:程序員們一塊兒「剁手」度過雙11

有了十年的積累沉澱,文景以爲今年雙11能夠說是豐收的一年。

CDN團隊主要支撐了電商和貓晚,整個過程能夠說是如絲般順滑,零故障零卡頓。同時,貓晚直播提供了超高清、高幀率的4K視頻,經過頻實時處理、轉碼向全網直播,窄帶高清技術可以進一步提高畫質,讓網友們過足了眼癮。

CDN爲優酷2500萬用戶提供的視頻分發,整個平臺的QPS也突破歷史峯值。整個服務過程當中依賴全鏈路質量監控、智能自動化調度,值班人員只須要關注數據大盤就能掌控全局了。

在今年雙11期間,文景所在的團隊也爲Lazada提供電商CDN加速保障,同時結合直播解決方案幫助Lazada把雙11晚會推送到泰國、馬來西亞,和東南亞人一塊兒狂歡雙11。

空見半玩笑半自豪地說:「之前奢望地喝喝茶、購購物過雙11的夢想在今年終於實現了,2135億裏也有咱們值班人員的一份貢獻。」

(零點洪峯平穩渡事後,程序員們終於有心思買買買了)

一路走來,文景也曾疑惑過:爲何咱們不能把活動的時間跨度拉長到3天,或者1周呢?那樣咱們或許就沒必要冒着如此大的風險,承受平常峯值是10倍以上的壓力啊!然而當他走到如今才深入的體會到,正是由於這集中爆發的、一次又一次的業務洪峯,在拉着技術往前狂奔,這才鑄就了今天這支能戰能勝的技術團隊,技術應該感謝業務!

十年雙11,就如同一部浩浩蕩蕩的阿里技術發展史。CDN就這樣用它獨有的起伏,添上了濃墨重彩的一筆。期待下一個十年,咱們繼續一路相隨。

(空見第十次在雙11護航現場:人生有幾個十年)

點擊瞭解11月CDN、ENS、視頻雲全線產品限時優惠活動


本文做者:樰籬

閱讀原文

本文爲雲棲社區原創內容,未經容許不得轉載。

相關文章
相關標籤/搜索