阿里大規模數據中心性能分析

郭健美,阿里巴巴高級技術專家,目前主要從事數據中心的性能分析和軟硬件結合的性能優化。CCF 系統軟件專委和軟件工程專委的委員。曾主持國家天然科學基金面上項目、入選上海市浦江人才計劃A類、得到 ACMSIGSOFT 「傑出論文獎」。擔任 ICSE'18NIER、ASE'1八、FSE'19 等重要會議程序委員會委員。數據庫

    • *

數據中心已成爲支撐大規模互聯網服務的標準基礎設施。隨着數據中心的規模愈來愈大,數據中內心每一次軟件(如 JVM)或硬件(如 CPU)的升級改造都會帶來高昂的成本。合理的性能分析有助於數據中心的優化升級和成本節約,而錯誤的分析可能誤導決策、甚至形成巨大的成本損耗。編程

本文整理自阿里巴巴高級技術專家郭健美在 2018 年 12 月 GreenTea JUG Java Meetup上的分享,主要介紹阿里大規模數據中心性能監控與分析的挑戰與實踐。性能優化

你們好,很高興有機會與 Java 社區的開發者交流。個人研究領域在軟件工程,主要集中在系統配置和性能方面。軟件工程一個比較常見的活動是找 bug,固然找 bug 很重要,但後來也發現,即使 bug-free 的程序也會被人配置錯,因此就衍生出了軟件配置問題。不少軟件須要配置化,好比 Java 程序或 JVM 啓動時能夠配置不少參數。經過配置,一套軟件能夠靈活地提供各類定製化的功能,同時,這些配置也會對軟件總體性能產生不一樣的影響。固然這些還在軟件配置方面,來了阿里之後,我有機會把這方面工做擴展到了硬件,會更多地結合硬件好比 CPU,來看系統的配置變動和升級改造對性能、可靠性以及業務上線效果的影響。今天主要談談我在這方面的一點工做。服務器

阿里最有表明性的事件是「雙 11」。這裏仍是用的去年的數據,由於今年有些數據還沒出來。左上角是雙十一的銷售額,去年大概是 253 億美金,比美國同期 Thanksgiving、Black Friday、Cyber Monday 加起來的銷售額還要多。固然這是從業務層面去看數據,技術同窗會比較關注右邊的數據,去年雙十一的交易峯值達到 32.5 萬筆/秒、支付峯值達到 25.6 萬筆/秒。對於企業來講,這麼高的峯值性能意味着什麼?意味着成本!咱們之因此關注性能,就是但願經過持續的技術創新,不斷地提升性能、同時節省成本。網絡

雙十一零點的峯值性能不是一個簡單的數字,其背後須要一個大規模數據中心來支撐。 簡單來講,阿里的基礎架構的上層是各類各樣的應用,好比淘寶、天貓、菜鳥、釘釘,還有云計算和支付寶等,這也是阿里的一個特點,即具備豐富的業務場景。底層是上百萬臺機器相連的大規模數據中心,這些機器的硬件架構不一樣、分佈地點也不一樣,甚至分佈在世界各地。中間這部分咱們稱之爲中颱,最貼近上層應用的是數據庫、存儲、中間件以及計算平臺,而後是資源調度、集羣管理和容器,再下面是系統軟件,包括操做系統、JVM 和虛擬化等。架構

中臺這部分的產品是銜接社區與企業的紐帶。這兩年阿里開源了不少產品,好比 Dubbo、PouchContainer 等,能夠看出阿里很是重視開源社區,也很是重視跟開發者對話。如今不少人都在講開源社區和生態,外面也有各類各樣的論壇,可是像今天這樣與開發者直接對話的活動並非那麼多,而推進社區發展最終仍是要依賴開發者。app

這樣大規模的基礎架構服務於整個阿里經濟體。從業務層面,咱們能夠看到 253 億美金的銷售額、32.5 萬筆交易/秒這樣的指標。然而,這些業務指標如何分解下來、落到基礎架構的各個部分就很是複雜了。好比,咱們在作 Java 中間件或 JVM 開發時,都會作性能評估。大部分技術團隊開發產品後都會有個性能提高指標,好比下降了 20% 的 CPU 利用率,然而這些單個產品的性能提高放到整個交易鏈路、整個數據中內心面,佔比多少?對數據中心總體性能提高貢獻多少?這個問題很複雜,涉及面很廣,包括複雜關聯的軟件架構和各類異構的硬件。後面會提到咱們在這方面的一些思考和工做。工具

阿里的電商應用主要是用 Java 開發的,咱們也開發了本身的 AJDK,這部分對 OpenJDK 作了不少定製化開發,包括:融入更多新技術、根據業務須要及時加入一些 patches、以及提供更好的 troubleshooting 服務和工具。性能

你們也知道,今年阿里入選並連任了 JCPEC 職位,有效期兩年,這對整個 Java 開發者社區、尤爲是國內的 Java 生態都是一件大事。可是,不是每一個人都瞭解這件事的影響。記得以前碰到一位同仁,提到 JCPEC 對阿里這種大業務量的公司是有幫助,對小公司就沒意義了。其實不是這樣的,參選 JCPEC 的時候,大公司、小公司以及一些社區開發者都有投票資格,小公司或開發者有一票,大公司也只有一票,地位是同樣的。不少國外的小公司更願意參與到社區活動,爲何?舉個簡單例子,因爲業務須要,你在 JVM 8 上作了一個特性,費了很大的力氣開發調試完成、業務上線成功,結果社區推薦升級到 JVM11 上,這時你可能又須要把該特性在 JVM 11 上從新開發調試一遍,可能還要多踩一些新的坑,這顯然增長了開發代價、拉長了上線週期。但若是你能影響社區標準的制定呢?你能夠提出將該特性融入社區下一個發佈版本,有機會使得你的開發工做成爲社區標準,也能夠藉助社區力量完善該特性,這樣既提升了技術影響力也減小了開發成本,仍是頗有意義的。測試

過去咱們作性能分析主要依賴小規模的基準測試。好比,咱們開發了一個 JVM 新特性, 模擬電商的場景,你們可能都會去跑SPECjbb2015  的基準測試。再好比,測試一個新型硬件,須要比較 SPEC 或 Linpack 的基準測試指標。這些基準測試有必要性,由於咱們須要一個簡單、可復現的方式來衡量性能。但基準測試也有侷限性,由於每一次基準測試都有其限定的運行環境和軟硬件配置,這些配置設定對性能的影響可能很大,同時這些軟硬件配置是否符合企業需求、是否具備表明性,都是須要考慮的問題。

阿里的數據中內心有上萬種不一樣的業務應用,也有上百萬臺分佈在世界各地的不一樣服務器。當咱們考慮在數據中內心升級改造軟件或硬件時,一個關鍵問題是小規模基準測試的效果是否能擴展到數據中內心複雜的線上生產環境?舉個例子,咱們開發了 JVM 的一個新特性,在 SPECjbb2015 的基準測試中看到了不錯的性能收益,但到線上生產環境灰度測試的時候,發現該特性能夠提高一個 Java 應用的性能、但會下降另外一個 Java 應用的性能。同時,咱們也可能發現即使對同一個 Java 應用,在不一樣硬件上獲得的性能結果大不相同。這些狀況廣泛存在,但咱們不可能針對每一個應用、每種硬件都跑一遍測試,於是須要一個系統化方法來估計該特性對各類應用和硬件的總體性能影響。

對數據中心來講,評估每一個軟件或硬件升級的總體性能影響很是重要。好比,「雙11」的銷售額和交易峯值,業務層面可能主要關心這兩個指標,那麼這兩個指標翻一倍的時候咱們須要買多少臺新機器?須要多買一倍的機器麼?這是衡量技術能力提高的一個手段,也是體現「新技術」對「新商業」影響的一個途徑。咱們提出了不少技術創新手段,也發現了不少性能提高的機會,但須要從業務上也能看出來。

爲了解決上面提到的問題,咱們開發了 SPEED 平臺。首先是估計當前線上發生了什麼,即 Estimation,經過全域監控採集數據,再進行數據分析,發現可能的優化點。好比,某些硬件總體表現比較差,能夠考慮替換。

而後,咱們會針對軟件或硬件的升級改造作線上評估,即 Evaluation。好比,硬件廠商推出了一個新硬件,他們本身確定會作一堆評測,獲得一組比較好的性能數據,但剛纔也提到了,這些評測和數據都是在特定場景下跑出來的,這些場景是否適合用戶的特定需求?沒有直接的答案。一般,用戶也不會讓硬件廠商到其業務環境裏去跑評測。這時候就須要用戶本身拿這個新硬件作灰度測試。固然灰度規模越大評測越準確,但線上環境都直接關聯業務,爲了下降風險,實際中一般都是從幾十臺甚至幾臺、到上百臺、上千臺的逐步灰度。SPEED 平臺要解決的一個問題就是即使在灰度規模很小時也能作一個較好的估計,這會節約很是多的成本。

隨着灰度規模增大,平臺會不斷提升性能分析質量,進而輔助用戶決策,即 Decision。這裏的決策不光是判斷要不要升級新硬件或新版軟件,並且須要對軟硬件全棧的性能有一個很好的理解,明白什麼樣的軟硬件架構更適合目標應用場景,這樣能夠考慮軟硬件優化定製的方向。好比,Intel 的 CPU 從 Broadwell 到 Skylake,其架構改動很大,但這個改動的直接效果是什麼?Intel 只能從基準測試中給答案,但用戶可能根據本身的應用場景給出本身的答案,從而提出定製化需求,這對成本有很大影響。

最後是 Validation,就是一般規模化上線後的效果來驗證上述方法是否合理,同時改進方法和平臺。

數據中內心軟硬件升級的性能分析須要一個全局的性能指標,但目前尚未統一的標準。Google 今年在 ASPLOS 上發表了一篇論文,提出了一個叫 WSMeter 的性能指標,主要是基於 CPI 來衡量性能。在 SPEED 平臺裏,咱們也提出了一個全局性能指標,叫資源使用效率 RUE。基本思想很簡單,就是衡量每一個單位 Work Done 所消耗的資源。這裏的 Work Done 能夠是電商裏完成的一個 Query,也能夠是大數據處理裏的一個 Task。而資源主要涵蓋四大類:CPU、內存、存儲和網絡。一般咱們會主要關注 CPU 或內存,由於目前這兩部分消費了服務器大部分的成本。

RUE 的思路提供了一個多角度全面衡量性能的方法。舉個例子,業務方反映某臺機器上應用的 response time 升高了,這時登陸到機器上也看到 load 和 CPU 利用率都升高了。這時候你可能開始緊張了,擔憂出了一個故障,並且極可能是因爲剛剛上線的一個新特性形成的。然而,這時候應該去看下 QPS 指標,若是 QPS 也升高了,那麼也許是合理的,由於使用更多資源完成了更多的工做,並且這個資源使用效率的提高可能就是由新特性帶來的。因此,性能須要多角度全面地衡量,不然可能會形成不合理的評價,錯失真正的性能優化機會。

下面具體講幾個數據中心性能分析的挑戰,基本上是線上碰到過的具體問題,但願能引發你們的一些思考。

首先是性能指標。可能不少人都會說性能指標我天天都在用,這有什麼好說的。其實,真正理解性能指標以及系統性能自己並非那麼容易。舉個例子,在數據中內心最經常使用的一個性能指標是 CPU 利用率,給定一個場景,數據中內心每臺機器平均 CPU 利用率是 50%,假定應用需求量不會再增加、而且軟件之間也不會互相干擾,那麼是否能夠把數據中心的現有機器數量減半呢?這樣,理想狀況下 CPU 利用率達到 100% 就能夠充分利用資源了,是否能夠這樣簡單地理解 CPU 利用率和數據中心的性能呢?確定不行。就像剛纔說的,數據中心除了 CPU,還有內存、存儲和網絡資源,機器數量減半可能不少應用都跑不起來了。

再舉個例子,某個技術團隊升級了其負責的軟件版本之後,經過線上測試看到平均 CPU 利用率降低了 10%,於是聲明性能提高了 10%。這個聲明沒有錯,但咱們更關心性能提高之後是否能節省成本,好比性能提高了 10%,是否能夠把該應用涉及的 10%的機器關掉?這時候性能就不該該只看 CPU 利用率,而應該再看看對吞吐量的影響。

因此,系統性能和各類性能指標,可能你們都熟悉也都在用,但還須要更全面地去理解。

剛纔提到 SPEED 的 Estimation 會收集線上性能數據,但是收集到的數據必定對嗎?這裏講一個 Hyper-Threading 超線程的例子,可能對硬件瞭解的同窗會比較熟悉。超線程是 Intel  的一個技術,好比咱們的筆記本,通常如今都是雙核的,也就是兩個hardwarecores,若是支持超線程並打開之後,一個 hardware core 就會變成兩個 hardware threads,即一臺雙核的機器會有四個邏輯 CPU。

來看最上面一張圖,這裏有兩個物理核,沒有打開超線程,兩邊 CPU 資源都用滿了,因此從任務管理器報出的整臺機器平均 CPU 利用率是 100%。左下角的圖也是兩個物理核,打開了超線程,每一個物理核上有一個 hardwarethread 被用滿了,整臺機器平均 CPU 利用率是 50%。再看右下角的圖,也是兩個物理核,也打開了超線程,有一個物理核的兩個hardware threads 都被用滿了,整臺機器平均 CPU 利用率也是 50%。左下角和右下角的 CPU 使用狀況徹底不一樣,可是若是咱們只是採集整機平均 CPU 利用率,看到的數據是同樣的!

因此,作性能數據分析時,不要只是想着數據處理和計算,還應該注意這些數據是怎麼採集的,不然可能會獲得一些誤導性的結果。

數據中內心的硬件異構性是性能分析的一大挑戰,也是性能優化的一個方向。好比這裏左邊的 Broadwell 架構,是 Intel 過去幾年服務器 CPU 的主流架構,近幾年在推右邊的 Skylake 架構,包含最新的 Cascade Lake CPU。Intel 在這兩個架構上作了很大的改動,好比,Broadwell 下訪問內存仍是保持多年的環狀方式,而到了 Skylake 改成網格狀方式。

再好比,L2 Cache 到了Skylake  上擴大了四倍,一般來講這能夠提升 L2 Cache 的命中率,可是 cache 越大也不表明性能就必定好,由於維護 cache coherence 會帶來額外的開銷。這些改動有利有弊,但咱們須要衡量利和弊對總體性能的影響,同時結合成原本考慮是否須要將數據中心的服務器都升級到 Skylake。

瞭解硬件的差別仍是頗有必要的,由於這些差別可能影響全部在其上運行的應用,而且成爲硬件優化定製的方向。

現代互聯網服務的軟件架構很是複雜,好比阿里的電商體系架構,而複雜的軟件架構也是性能分析的一個主要挑戰。舉個簡單的例子,圖中右邊是優惠券應用,左上角是大促主會場應用,右下角是購物車應用,這三個都是電商裏常見的業務場景。從 Java 開發的角度,每一個業務場景都是一個 application。電商客戶既能夠從大促主會場選擇優惠券,也能夠從購物車裏選擇優惠券,這是用戶使用習慣的不一樣。

從軟件架構角度看,大促主會場和購物車兩個應用就造成了優惠券應用的兩個入口,入口不一樣對於優惠券應用自己的調用路徑不一樣,性能影響也就不一樣。因此,在分析優惠券應用的總體性能時須要考慮其在電商業務裏的各類錯綜複雜的架構關聯和調用路徑。像這種複雜多樣的業務場景和調用路徑是很難在基準測試中徹底復現的,這也是爲何咱們須要作線上性能評估。

這是數據分析裏著名的辛普森悖論,在社會學和醫學領域有不少常見案例,咱們在數據中心的性能分析裏也發現了。這是線上真實的案例,具體是什麼 App 咱們不用追究。假設還用前面的例子,好比 App 就是優惠券應用,在大促的時候上線了一個新特性 S,灰度測試的機器佔比爲 1%,那麼根據 RUE 指標,該特性能夠提高性能 8%,挺不錯的結果。可是若是優惠券應用有三個不一樣的分組,分組假設就是剛纔提到的不一樣入口應用,那麼從每一個分組看,該特性都下降了應用的性能。

一樣一組數據、一樣的性能評估指標,經過總體彙集分析獲得的結果與經過各部分單獨分析獲得的結果正好相反,這就是辛普森悖論。既然是悖論,說明有時候應該看整體評估結果,有時間應該看部分評估結果。在這個例子裏面,咱們選擇看部分評估、也就是分組上的評估結果,因此看起來這個新特性形成了性能降低,應該繼續修改並優化性能。

因此,數據中內心的性能分析還要預防各類可能的數據分析陷阱,不然可能會嚴重誤導決策。

最後,還有幾分鐘,簡單提一下性能分析師的要求。這裏一般的要求包括數學、統計方面的,也有計算機科學、編程方面的,固然還有更重要的、也須要長期積累的領域知識這一塊。這裏的領域知識包括對軟件、硬件以及全棧性能的理解。其實,我以爲每一個開發者均可以思考一下,咱們不光要作功能開發,還要考慮所開發功能的性能影響,尤爲是對數據中心的總體性能影響。好比,JVM 的 GC 開發,社區裏比較關心 GC 暫停時間,但這個指標與 Java 應用的 response time 以及所消耗的 CPU 資源是什麼關係,咱們也能夠有所考慮。固然,符合三塊要求的候選人很差找,咱們也在總結系統化的訓練流程,歡迎對系統性能有興趣的同窗加入咱們。



本文做者:amber塗南

閱讀原文

本文爲雲棲社區原創內容,未經容許不得轉載。

相關文章
相關標籤/搜索