內含福利｜阿里雲數據庫再獲學術頂會承認，一文全覽VLDB最新亮點

時間 2019-11-12

原文原文鏈接

一年一度的數據庫領域頂級會議VLDB 2019於當地時間8月26日-8月30日在洛杉磯圓滿落幕。在本屆大會上，阿里雲數據庫產品團隊濃墨登場，不只有多篇論文入選Research Track和Industrial Track，爲了進一步加深產學研學術交流，阿里雲還在大會期間舉辦了「阿里之夜」交流晚宴。算法

8月29日晚，超200名論文做者、行業專家、來自MIT、CMU等高校的學術界資深教授、學者和產業界人士共赴「阿里之夜——Alibaba Night Networking Event「，活動空前爆滿。在輕鬆氛圍中，參會者共同探討全球數據庫生態，並就阿里雲目前在數據庫和大數據方面的最新技術進展進行交流與研討，開啓了一場智慧碰撞的盛宴。數據庫

在VLDB大會上，阿里巴巴集團副總裁、阿里雲數據庫事業部總裁、達摩院數據庫首席科學家李飛飛進行題爲《Cloud Native Database System at Alibaba: Opportunities and Challenges》的主題演講。李飛飛分享了雲原生數據庫在阿里發展的心路歷程，並表示：「雲原生數據庫自然擁有云計算的彈性能力，不只具有開源數據庫的易用、開放特色，並且擁有傳統數據庫的管理和處理性能等優點「。數據結構

他還詳細介紹了阿里雲自研數據庫的兩款明星產品：OLTP數據庫——POLARDB基於共享存儲的Scale-up 架構和基於分片的scale-out分佈式架構，以及OLAP數據庫——AnalyticDB的MPP架構、極具特點的全索引和行列混存結構，以及在海量數據場景下極致性能。架構

領跑數據時代技術實力再獲權威承認

VLDB大會全稱International Conference on Very Large Data Bases，是數據庫及相關領域研究者、供應商、參與者、應用開發者所普遍關注的主要國際學術會議，也是公認的數據庫領域三大頂級會議 (SIGMOD、VLDB、ICDE) 之一，反映了當前數據庫研究的前沿方向、工業界的最新技術以及各國的研發水平。在發表論文難度和受關注程度上，與SIGMOD可謂並駕齊驅。併發

根據大會官方公佈，今年VLDB共接收了128篇Research Paper、22篇Industrial Paper和48個Demo。從投稿數量與錄用率來看，Research Paper投稿677篇，錄用率18.9%，Industry Paper爲72/30.6%，**只有具備極高創新性的論文才有機會被VLDB錄用。
**
做爲阿里巴巴IT基礎設施的重要組成部分，阿里雲數據庫在工程實踐和技術創新上一直走在領域前列，相關研究成果已屢次入選國際數據庫頂級會議（SIGMOD、VLDB、ICDE等）。本次VLDB大會，阿里雲數據庫共有3篇論文被收錄，下面小編將對入選的論文佳做進行彙總賞析，萃取精華之精華，以饗讀者。機器學習

No.1

論文題目：《S3: A Scalable In-memory Skip-List Index for Key-Value Store》

亮點：阿里雲攜手浙江大學的最新聯合研究成果入選Industrial Trackasync

做者：浙江大學Jingtian Zhang、Sai Wu、Zeyuan Tan、Gang Chen，阿里雲數據庫產品事業部成柱石、曹偉、高玉嵩、酆曉傑分佈式

附送論文下載連接：http://www.vldb.org/pvldb/vol12/p2183-zhang.pdfide

本文貢獻

針對 Skip List 這種被普遍使用的索引結構，對其在高併發場景下的性能表現進行了詳實的測試驗證，創建數據模型分析在垂直降低和水平移動兩個不一樣方向上的 cost-model，確立 Skip List 在當前實現下的性能上限。
基於上述模型分析，設計實現了 S3：A Scalable In-memory Skip-List Index，經過分層的方法把整個結構分爲兩部分：Top layer 利用 cache-sensitive 的數據結構來索引 bottom layer 的部分節點（guard entries），以大幅下降現有 Skip-List 在垂直降低過程當中的性能損耗；Bottom layer 維護一個低層高的 Semi-ordered Skip-List，由多個 guard entries 分隔開，各 entries 之間有序、內部無序，以進一步提高其在插入方面的優點。
考慮到 guard entryies 選擇的非肯定性，結合實際場景中業務 workload 變化比較平滑，引入 Neural Model 來指導其selection，以達到更優的優化效果。

VLDB評委點評

「Many previous in-memory indexes, although showing significantly better performance than skip-list, have not been integrated with the real systems and thus, there is no clue about how they will work with other system modules. S3, on the other hand, can be easily integrated with the disk part of RocksDB and LevelDB, because it maintains the same interface.高併發

The top layer is cache-oblivious, while the bottom layer can speed up the lookup operations of skip-list.

It’s an interesting idea to use a neural model, LSTM, to tune the index, i.e., optimizing guard entry selection and using some rules to optimize multi-thread access.

Extensive experiments for comparison of the proposed method with different in-memory indexes have been conducted and the result shows benefit, not to mention that it is implemented in a real system RocksDB.」

No.2

論文題目：《iBTune: Individualized Buffer Tuning for Large-scale Cloud Databases》

亮點：阿里巴巴在數據庫智能化方向的重要里程碑，入選Research Track

做者：阿里雲譚劍、鐵贏、飛刀、艾奧、祺星、池院、洪林、石悅、鳴嵩、張瑞

附送論文下載連接：http://www.vldb.org/pvldb/vol12/p1221-tan.pdf

本文貢獻

基於數據驅動和機器學習算法的數據庫參數優化是近年來數據庫智能優化的一個熱點方向，但也面臨着很大的技術挑戰。要解決的問題是在大規模數據庫場景下，如何對百萬級別運行不一樣業務的數據庫實例完成自動配置，同時權衡性能和成本，在知足SLA的前提下資源成本最低，該技術對於CSP(Cloud Service Provider)有重要價值。

學術界近一兩年在該方向有一些研究(好比CMU的OtterTune)，但該算法依賴於一些人工先驗經驗且在大規模場景下不具有可擴展性。據瞭解, 其餘雲廠商Azure SQL Database以及AWS該方向都有投入，目前還沒有看到相關論文或產品發佈。

從18年初開始，阿里雲開始數據庫智能參數優化的探索，從問題定義，關鍵算法設計，算法評估及改進，到最終端到端自動化流程落地，多個團隊通力合做完成了技術突破且實現了大規模落地。

這項工做不只在數據庫智能參數優化理論方面提出了創新想法，並且目前已經在阿里集團~10000實例上實現了規模化落地，累計節省~12%內存資源，是目前業界惟一一家真正實現數據庫智能參數優化大規模落地的公司。

通過算法探索和端到端自動Buffer Pool優化流程建設，FY2019集團內全網最終優化 ~10000 個實例，將總體內存使用量從 217T內存縮減到 190T內存，節省 12.44%內存資源(27TB)。

論文深度解讀請戳⬇️：

[前沿 | VLDB 2019論文解讀：阿里巴巴大規模數據庫智能參數優化的創新與實踐
](https://mp.weixin.qq.com/s/KHHvr39lt2KL8FVFp9y25w)

VLDB評委點評

Lessons learned from tuning many database instances in a production system offer interesting insights to the data management community.

It is encouraging to see how deep neural networks can help with tuning a parameter of the database system and how its results are used by the control plane of a large scale deployment to tune many database instances in a rolling fashion.

No.3

論文題目：《AnalyticDB: Realtime OLAP Database System at Alibaba Cloud》

亮點：阿里雲大規模、海量數據實時分析型數據庫系統——AnalyticDB最新研究成果入選Industrial Track

做者：阿里雲數據庫產品事業部佔超羣、蘇茂萌、魏闖先、彭曉強、林亮、汪晟、陳哲、李飛飛、潘岳、鄭方、柴成亮

附送論文下載連接：http://www.vldb.org/pvldb/vol12/p2059-zhan.pdf

本文貢獻

已有的分析型數據庫（如下簡稱OLAP）諸如Impala、Pinot、Druid等，總結了OLAP系統在設計的過程當中應該解決的問題：低延遲、數據新鮮度、多樣性、低成本、高擴展性、高可靠性。和這些已有的OLAP系統相比，AnalyticDB承載着更大的規模：2000+臺物理機器、10PB+規模數據、百萬張數據表以及萬億條數據行。

論文講述了AnalyticDB如何在設計與實現上，不只解決了已有OLAP系統的問題，還攻克瞭如下三大業界難題：

1）隨着用戶分析需求的急劇增長，用戶的查詢變得複雜且多樣化：這些查詢涵蓋點查詢、全表掃描、多表關聯等，還會包含對任意列組合的篩選條件。如何在這種複雜分析場景下依然保證大部分甚至全部查詢的低延遲，是一個很是大的挑戰；
2）如何在保證低延遲查詢的狀況下，仍然能處理每秒千萬級別的寫吞吐。傳統的設計理念在同一條鏈路上同時處理讀寫請求，這會形成讀寫性能的互相嚴重影響。
3）複雜分析場景下，會對行存、列存、關係型存儲、複雜數據類型（JSON、vector、text）都有着強烈需求。如何設計一個對這些存儲格式都很友好的存儲層，也是一個業界難題。

深度解讀請戳⬇️：

前沿 | VLDB論文解讀：阿里雲超大規模實時分析型數據庫AnalyticDB

VLDB評委點評

This paper presents a solid OLAP database integrating a few interesting and well-designed ideas including an asynchronous all-column index, an extended hybrid row-column layout and a read/write decoupling architecture. The presentation is clear and the solution has been shown to be effective empirically.

The combination of different design choices indicate that the system achieves significant performance improvements over other similar systems.

原文連接

本文爲雲棲社區原創內容，未經容許不得轉載。

相關標籤/搜索

內含福利｜阿里雲數據庫再獲學術頂會承認，一文全覽VLDB最新亮點

領跑數據時代 技術實力再獲權威承認

No.1

論文題目：《S3: A Scalable In-memory Skip-List Index for Key-Value Store》

本文貢獻

VLDB評委點評

No.2

論文題目：《iBTune: Individualized Buffer Tuning for Large-scale Cloud Databases》

本文貢獻

VLDB評委點評

No.3

論文題目：《AnalyticDB: Realtime OLAP Database System at Alibaba Cloud》

本文貢獻

VLDB評委點評

領跑數據時代技術實力再獲權威承認