騰訊雲運維乾貨沙龍-海量運維實踐大曝光 (一)

做者丨郭智文:騰訊高級工程師,手機QQ運維負責人。多年來,對移動互聯網應用的接入質量度量、優化有豐富的實踐經驗,專一於業務架構優化、彈性伸縮、運營服務管理、幫助產品打造極致的技術基礎和質量口碑。

12月16日,首期沙龍「海量運維實踐大曝光」在騰訊大廈圓滿舉行。沙龍出品人騰訊運維技術總監、復旦大學客座講師、DevOps專家梁定安,講師騰訊手機QQ運維負責人郭智文,騰訊高級工程師魏暘,騰訊SNG資深運維專家周小軍出席沙龍,並帶來精彩的技術分享。爲了便於你們學習,特將本次沙龍講師的演講內容進行了整理。您也能夠在騰訊織雲公衆號下載本次演講PPT。性能優化

圖片

一. 業務概況

手Q業務增加 2008-2017

手機QQ起源於2003年先後,到2008年同時在線用戶數到達500萬,到200九、2010年就已經達到千萬級別,到2013年就突破億級級別,短短5-6年時間,增加了200倍,2016先後達到2億級別。服務器

圖片

二.移動網絡用戶接入故障案例

重慶聯通用戶移動網絡(2G/3G)故障

問題:網絡

2014年12月4日早上,收到手機QQ監控告警,重慶聯通部分用戶訪問異常。重慶聯通2G、3G用戶到全部IDC的網絡質量變差,表現爲丟包變高。但對比組重慶聯通寬帶Wifi用戶質量正常。架構

圖片

咱們從客戶端上萬日誌監控裏面看,在12月4號凌晨,發現重慶那個地方從3%漲到4%左右,其它的有些漲到10%。運維

業務運維同事經過騰訊網絡中心聯繫到重慶聯通網絡負責人,通過多輪溝以後,確認確實是運營商在凌晨時段割接網絡引發,運營商與廠商通過兩次調整最後故障才得以解決。socket

圖片

經過上述例子,咱們能夠發現,在用戶與業務服務器之間,存在着一個漫長的路徑: 從手機側到附近基站,再到移動的GGSN,再通過互聯網骨幹網,再到騰訊服務器。性能

圖片

香港數碼通與新世界電訊聯網問題

QQ日活躍用戶有6億多,這麼多的用戶數,除了分佈在國內,也全球也有很多用戶。這些全球的移動用戶是接入到全球其餘的移動網絡運營商。這些普遍的運營商對網絡的管控也是有不少潛規則的,是咱們沒法預料到的。學習

圖片

這個就是咱們的一個從用戶側到無線網絡,到互聯網,再到後臺服務器的架構。大數據

其實最主要的就是因爲WiFi與移動網絡,不是物理鏈接的,是無線鏈接的,這會帶來一些高丟包率,高延時的問題。優化

圖片

最上面是咱們的後臺服務層。而後,隨着用戶規模的增加,從百萬級到千萬級,而後到億級,可用性要求更高了,逐步從一箇中心演變成雙中心,進而達到三中心。

三. 業務後臺架構及部署優化

2G時代(2004 - 2010)

在早期2G網絡時代,用戶手機通過運營商網關訪問網絡,是會通過嚴格的防火牆策略限制的。 這致使了業務側的業務部署,服務端口等都要向運營商申請加可信策略,才能被移動用戶訪問到。

圖片

在2G時代,那時候規模還比較小,主要在深圳地區,移動也沒有移動機房,一開始就都部署在電信的機房裏面。 晚高峯時候移動用戶跨網登陸到電信服務器,登陸過程經常須要等待數秒。

圖片

3G時代(2011 – 2013)

2011年起,國內運營商的3G網絡逐步發展起來,WAP網關和NET網關也逐步融合了,運營商socket限制逐步取消。業務側也逐步增長了移動、聯通機房部署,實現用戶非跨網接入。

圖片

圖片

4G時代(2014 – 2017)

2013年手Q已經超過一億級在線了。當咱們到一億用戶的時候,那時候咱們要考慮,業務不太適合只放深圳地區了。

因而,在同時在線過億後,單地域支撐存在風險, 咱們業務進行了架構優化, 逐步從深圳分佈,演進成深圳、天津兩地分佈,並進一步演進成深圳、天津、上海三中心分佈。

圖片

圖片

咱們是2015年6月份完成了開普勒項目,到2015年8月份,天津港就發生了爆炸事件,基於三中心分佈架構的能力,咱們大概花了一個小時,在用戶幾乎無感知的狀況下面,平滑的把用戶調度到另外兩個中心。

圖片

四. 全局智能調度

全網網絡情況統計分析

• 覆蓋廣,數據可信度高 –— 億級在線聯網數據

• 強大的實時干預能力 —- 5分鐘級自動調度

• 極致加速 —- 調度粒度細分到VIP下的某端口

• 自適應中國運營商的複雜環境 —- 多發故障,多出口,跨網限制

國內的三大運營商,還有中小運營商網絡環境也很是複雜,出口的限制也比較多,基於這套系統,咱們可以作到自適應。

圖片

智能調度系統後臺架構

經過統計億級在線的手機QQ/PCQQ的聯網反饋數據,通過大數據分析處理,造成一個調度庫。

圖片

天天都在發生的實時丟包乾預效果

這是每一天網絡波動圖。從這圖來看,5個省份有丟包的問題, 可是在咱們實時的干預調度下,用戶訪問到跨地域的集羣了, 丟包率降回到3%左右 效果很好。

圖片

平均登錄耗時對比

從咱們的智能調度的抽樣的案例來看,被智能調度干預的用戶平均的登陸耗時只有1.9秒,若是沒有自動干預,用戶須要8.6秒。

圖片

海外用戶加速點

QQ海外用戶數相對來講比例比較小,大概1%到2%左右。 一開始咱們只是用香港去覆蓋的,可能對香港周邊國家的覆蓋是沒什麼問題,可是距離比較遙遠的國家,仍是會帶來高時延,高丟包率的問題。

咱們的解決方法是,好比說在用戶就近的地區布一些網絡加速點,在這些加速點連到香港服務器,而後香港服務器走騰訊跨境專線回到深圳的集羣。經過這種方式來解決。

圖片

五. 移動端網絡性能優化

通訊信道預激活 —- signaling加速

從統計數據看,在3G網絡下,這個優化是能夠把用戶感知這個體驗從600多毫秒降到400多毫秒,平均耗時減小了32%左右。

圖片

IP直連

咱們是作了一種IP直通車的方案,既可以解決劫持問題,又可以解決訪問速度最快的問題。目前已有30多個業務已經接入了手機QQ IP直通車服務了。

圖片

高時延下邏輯聚合

手機端還能夠作的優化就是考慮把部分客戶端的邏輯作到服務器邏輯裏面去。

移動端網絡高延時,考慮在Server側作邏輯聚合。增長內網代理模塊,代替客戶端完成屢次請求,一次性把結果返回給客戶端,原先10+s耗時可優化到1-2s。

圖片

好比說像手機QQ ,咱們作了一個優化,把登陸聯網這個邏輯作到一個註冊代理的後臺服務上,大大下降了客戶端屢次請求的耗時。這其實還有一些其餘間接的好處,好比說咱們在春節零點搶紅包的時候, 咱們是能夠在註冊代理作一些頻率控制+隊列來下降零點時刻爆發峯值對咱們後臺業務的衝擊。

六. 總結

圖片

相關文章

騰訊雲運維乾貨沙龍-海量運維實踐大曝光 (二)

騰訊雲運維乾貨沙龍-海量運維實踐大曝光 (三)

沙龍PPT下載地址:

https://share.weiyun.com/5c406a57164ed4cf7e248160aebf74c3

相關文章
相關標籤/搜索