後摩爾時代 京東智聯雲如何解決數據中心的冷與熱?

今年,以數字化技術爲核心的 " 新基建 " 首次被寫入政府工做報告,引發了人們普遍關注。新基建包含5G 基站、特高壓、工業互聯網、城際高速鐵路和城際軌道交通、新能源車充電樁、人工智能、大數據中心七個方向。其中,數據中心既是新基建的重要組成部分,也是新基建發展的核心IT基礎設施,對數字經濟的騰飛起到底層支撐做用。服務器

京東智聯雲硬件研發總監陳國峯曾任開放數據中心委員會「天蠍」項目的總架構設計師,是國內第一批參與整機櫃實踐過程的行業「老兵」,日前做客E企研究院主辦的「開放新基建」訪談節目,從超大規模數據中心角度分享了當前 IT 發展新趨勢對數據中心基礎設施的影響與京東智聯雲的下一代服務器前沿技術。網絡

今年受新冠疫情影響,人們的工做和生活方式都發生了巨大變化,居家辦公成爲常態,不少事情都被迫搬到了線上,如視頻會議、線上網課、直播賣貨等等。幸運的是以互聯網、雲計算爲主的數字化技術爲人們帶來了巨大助力,讓社會沒有由於疫情影響而停滯。架構

人們對視頻的依賴致使視頻的數據量呈現指數級增加,這對提供視頻服務的服務商基礎設施提出了巨大挑戰。不管是計算、存儲、網絡傳輸帶寬,都提出了更高要求。數據中內心最顯赫的主角莫過於提供強大算力的服務器,面對應用場景的多樣化,服務器的需求也出現了層次化。運維

過去很長一段時間裏,傳統x86 通用服務器基本上能知足大部分計算的訴求,但在視頻、AI 領域大火以後,場景化的計算愈來愈多,某些場景對計算能力或是計算特性都會有固定的要求。因爲這類場景是固化的,並且有足夠龐大的市場,再用通用計算去知足效率上就不必定是最佳的。模塊化

這種狀況下,催生出了一個新概念——「多元計算」。爲了知足新應用場景的需求,更適合編解碼、視頻處理、AI 的計算單元被開發出來,市場中出現了更多的參與者去作相關的處理器。用專用芯片確定會比通用芯片效率更高,這也是將來技術發展的必然方向。性能

在專用芯片發展如火如荼之時,通用芯片卻遭遇了史無前例的挑戰。過去,受摩爾定律影響,每 18 個月晶體管的密度就會翻一番,但受制程工藝的制約,如今已經很難繼續維持下去,芯片行業進入後摩爾定律時代。大數據

既然單核運算性能已沒法繼續大幅提高,芯片製造商們紛紛開始採用多核方式提升性能。AMD 提供了 64 核128 線程處理器,ARM 提供 80 核的 Ampere 處理器。在工藝受限的狀況下,要想實現計算能力的疊加,就只能靠堆核。但核數增長後內存通道也會相應增長,這就意味着單臺服務器的總體功耗會成倍增加。雲計算

之前一臺服務器的功耗總體上 300 瓦就足夠了,如今可能一個 CPU 就接近 300 瓦,功耗的上升對於系統散熱設計的挑戰愈來愈大。通過咱們的分析,1U 服務器能給 CPU 散熱的極限就是這個 CPU 的功耗不能超過 250 瓦,一旦 1U 的空間裏處理器功耗超過這個值,風冷就很難知足散熱需求,某種程度上散熱已經制約了服務器和數據中心的發展。人工智能

京東智聯雲在過去一年裏作了大量研究,認爲在目前狀況下,Cold Plate方式是最經濟最實用的散熱方式。在京東智聯雲推出的下一代服務器架構中,經過風液混合散熱的方式解決功率密度的問題。它和其餘的浸沒式液冷方案不太同樣,不會讓 CPU 直接去接觸這些液體,而是經過Heat Sink的方式來傳導。spa

除了用液冷方式解決散熱,不少廠商還考慮過定製的整機櫃解決方案。長期以來,包括谷歌、臉書以及國內的BATJ等在內的頂級互聯網廠商,常常採用整機櫃甚至模塊化數據中心,目的就是追求系統效率的最大化。

整機櫃服務器自概念被提出至今已經歷了 3 個階段:

  • 第一階段是概念炒做階段;
  • 第二階段是落地標準階段,國內對整機櫃服務器的理解統一到天蠍的設計,國外統一到 OCP(Open Compute Project)標準。兩種標準對整機櫃服務器的產品形態都是一致的,空間都是 21 英寸 1U,但願給 IT設備提供更多的內部空間;
  • 第三階段是雲時代,雲的本質是強依賴基礎設施的,只有成本足夠低,雲的競爭力纔會好,整機櫃服務器的關注點也天然放到了生態和經濟效益上。

21 英寸 1U 設計有一個前提是當時的服務器單機功耗還不高,今天再回頭看這個設計的侷限性就變得愈來愈大。若是 CPU 功耗已經達到 200 瓦以上,1U 空間的散熱效率就會變得極低。

早年整機櫃的設計初衷就是下降 TCO,所以一切前提都是圍繞着 TCO 展開的。單個機櫃的功率密度不可能無限大,那麼在單個機櫃固定的狀況下,是經過多塞機器仍是提升單機性能來實現最優 TCO 呢?很明顯在目前散熱效能極低的狀況下,多塞機器對於整個機櫃的 TCO 來講是極不合適的。相比之下,2U 服務器的計算能力要遠遠大於 2 臺 1U 服務器,能夠保證更好的散熱效能,反而會得到更好的總體 TCO。

爲了面向更普遍的市場,針對整機櫃的改進必不可少。結合用戶的需求及痛點,京東智聯雲提出以「標準化、模塊化、彈性化」實現全場景靈活部署的設計理念,更好地支撐用戶在雲計算、大數據時代的業務運營和增加。

京東智聯雲的下一代服務器主流應用都將回歸到 2U,整機櫃方案採用 42U 19 英寸標準機櫃爲設計單位,節點獨立散熱,通用性強,實現了整機櫃和標準機架服務器任意切換。這樣帶來的好處是高靈活性,由於用戶的需求不可預測,用戶場景複雜,租用機房較多,每一個機房基礎設施條件不同,同時業務類型複雜,資源調配遷移需求比較多,而目前主流的整機櫃與通用機相比,不管從 21 英寸的尺寸仍是集中的散熱方式都有很大的差別,形成了整機櫃部署的侷限性,很難實現靈活遷移,混合部署。19 英寸能夠最大程度知足不一樣場景的需求。

當功率密度提升以後,風扇轉速就會更高。因爲硬盤的存儲密度不斷上升,對於外部環境的振動、噪聲的敏感度就愈來愈高。所以,京東智聯雲在設計上針對硬盤和風扇振動採用了「硬盤前置,風扇後置」的系統架構,最大程度拉開風扇和硬盤之間的距離,有效下降了震動對硬盤的影響。

同時,京東智聯雲下一代服務器採用節點前 IO 設計,機櫃後部無任何線纜,全部運維工做都可在冷通道進行,單邊維護效率更高,環境更友好。同時經過模塊化設計,可實現先後 IO 靈活切換,集中供電和單機供電模式靈活切換。

京東定製服務器的歷史,最先能夠追溯到2014年,當時京東與英特爾合做,設立了創新實驗室,定製了兩款面向電商行業的雙路服務器。早期的嘗試更可能是一種基於自身業務的「投石問路」,而今對於京東智聯雲來講,下一代服務器交付的再也不只是軟件和基礎設施,而是一整套服務器交付的標準和落地。京東智聯雲將會圍繞着下一代服務器打造公有云、私有云、混合雲、全方位的雲產品。

image.png

點擊"閱讀原文",瞭解更多京東雲物理服務器

相關文章
相關標籤/搜索