Alibaba Cluster Data 開源:270GB 數據揭祕你不知道的阿里巴巴數據中心

打開一篇篇 IT 技術文章,你總可以看到「大規模」、「海量請求」這些字眼。現在,這些功能強大的互聯網應用,都運行在大規模數據中心上,然而,對於大規模數據中心,你又瞭解多少呢?實際上,除了閱讀一些科技文章以外,你很可貴到更多關於數據中心的信息。數據中心每一個機器的運行狀況如何?這些機器上運行着什麼樣的應用?這些應用有有什麼特色?對於這些問題,除了少數資深從業者以外,普通學生和企業的研究者很難了解其中細節。算法

1 什麼是Alibaba Cluster Data?

2015 年,咱們嘗試在阿里巴巴的數據中心,將延遲不敏感的批量離線計算任務和延遲敏感的在線服務部署到同一批機器上運行,讓在線服務用不完的資源充分被離線使用以提升機器的總體利用率。通過 3 年多的試驗論證、架構調整和資源隔離優化,目前這個方案已經走向大規模生產。咱們經過混部技術將集羣平均資源利用率從 10% 大幅度提升到 45%。另外,經過各類優化手段,可讓更多任務運行在數據中心,將「雙11」平均每萬筆交易成本降低了 17%,等等。服務器

張北.png | center | 600x307

那麼,實施了一系列優化手段以後的計算機集羣到底是什麼樣子?混部的狀況究竟如何?除了文字性的介紹,直接發佈數據可以更加拉近咱們與學術研究、業界同行之間的距離。爲了讓有興趣的學生以及相關研究人員,能夠從數據上更加深刻地理解大規模數據中心,咱們特別發佈了這份數據集。數據集中記錄了某個生產集羣中服務器以及運行任務的詳細狀況。在數據集中,你能夠詳細瞭解到咱們是如何經過混部把資源利用率提升到 45%;咱們天天到底運行了多少任務;以及業務的資源需求有什麼特色,等等。如何使用這份數據集,徹底取決於你的須要。架構

2 你用這個數據能夠作什麼?

剛剛發佈的 Alibaba Cluster Data  V2018 包含 6 個文件,壓縮後大小近 50GB(壓縮前 270+GB),裏面包含了 4000 臺服務器、相應的在線應用容器和離線計算任務長達 8 天的運行狀況,具體信息你能夠在 GitHub 中找到。oop

經過這份數據,你能夠:學習

  1. 瞭解當代先進數據中心的服務器以及任務運行特色;
  2. 試驗你的調度、運籌等各類任務管理和集羣優化方面的各類算法並撰寫論文;
  3. 利用這份數據學習如何進行數據分析,揭示更多咱們本身都不曾發現的規律。

只看上面這幾點,沒有接觸過相似數據的朋友,可能對於這份數據的用處仍是沒有概念,下面我舉幾個簡單的例子:優化

  • 電商業務在白天和晚上面臨的壓力不一樣,咱們如何在業務存在波峯波谷的狀況下提升總體資源利用率?
  • 你知道咱們最長的 DAG 有多少依賴嗎?
  • 一個典型的容器存在時間是多久?
  • 一個計算型任務的典型存在時間是多少?一個 Task 的多個 Instance 理論上彼此很類似,可是它們運行的時間都同樣嗎?

實際上,學者們甚至能夠用這些數據做出更加精彩地分析。spa

2017年,咱們曾開放的第一波數據(Alibaba Cluster Data  V2017),已經產生了多篇優秀的學術成果。如下是學者們在論文中引用數據(Alibaba Cluster Data  V2017)的例子,其中不乏被 OSDI 這樣頂級學術會議收錄的優秀文章。咱們期待,將來你也能與咱們共同分享你用這份數據產生的成果!3d

"LegoOS: A Disseminated, Distributed OS for Hardware Resource Disaggregation, Yizhou Shan, Yutong Huang, Yilun Chen, and Yiying Zhang, Purdue University. OSDI'18" (Best paper award!)cdn

image | left

"Imbalance in the Cloud: an Analysis on Alibaba Cluster Trace, Chengzhi Lu et al. BIGDATA 2017"blog

image | left

image | left

"CharacterizingCo-located Datacenter Workloads: An Alibaba Case Study, Yue Cheng, Zheng Chai,Ali Anwar. APSys2018"

image | left

image | left

image | left

"The Elasticity and Plasticity in Semi-Containerized Co-locating Cloud Workload: aView from Alibaba Trace, Qixiao Liu and Zhibin Yu. SoCC2018"

image | left

image | left

image | left

3 Cluster Data V2018的不一樣

新版本 V2018 與 V2017 存在兩個最大的區別:

DAG 信息加入

咱們加入了離線任務的 DAG 任務信息,據瞭解,這是目前來自實際生產環境最大的 DAG 數據。

什麼是 DAG? 離線計算任務,例如 Map Reduce、Hadoop、Spark、Flink 中經常使用的任務,都是以有向無環圖(Directed Acyclic Graph,DAG)的形式進行編排的,其中涉及到任務之間的並行、依賴等方面。下面是一個 DAG 的例子。

image | left

規模更大

上一版數據包含了約 1300 臺機器在約 24 小時的內容數據,而新版 Cluster Data V2018 中包括了 4000 臺機器 8 天的數據。

完成問卷便可獲取數據格式描述和數據的下載連接:alibabadeveloper.mikecrm.com/BdJtacN 對看到更多的數據有興趣?咱們長期招收研究型實習生,與咱們一塊兒攻克難題和撰寫論文,簡歷投遞:haiyang.dhy@alibaba-inc.com

相關文章
相關標籤/搜索