一年一度的數據庫領域頂級會議VLDB 2019於當地時間8月26日-8月30日在洛杉磯圓滿落幕。在本屆大會上,阿里雲數據庫產品團隊濃墨登場,不只有多篇論文入選Research Track和Industrial Track,爲了進一步加深產學研學術交流,阿里雲還在大會期間舉辦了「阿里之夜」交流晚宴。算法
8月29日晚,超200名論文做者、行業專家、來自MIT、CMU等高校的學術界資深教授、學者和產業界人士共赴「阿里之夜——Alibaba Night Networking Event「,活動空前爆滿。在輕鬆氛圍中,參會者共同探討全球數據庫生態,並就阿里雲目前在數據庫和大數據方面的最新技術進展進行交流與研討,開啓了一場智慧碰撞的盛宴。數據庫
在VLDB大會上,阿里巴巴集團副總裁、阿里雲數據庫事業部總裁、達摩院數據庫首席科學家李飛飛進行題爲《Cloud Native Database System at Alibaba: Opportunities and Challenges》的主題演講。李飛飛分享了雲原生數據庫在阿里發展的心路歷程,並表示:「雲原生數據庫自然擁有云計算的彈性能力,不只具有開源數據庫的易用、開放特色,並且擁有傳統數據庫的管理和處理性能等優點「。數據結構
他還詳細介紹了阿里雲自研數據庫的兩款明星產品:OLTP數據庫——POLARDB基於共享存儲的Scale-up 架構和基於分片的scale-out分佈式架構,以及OLAP數據庫——AnalyticDB的MPP架構、極具特點的全索引和行列混存結構,以及在海量數據場景下極致性能。架構
VLDB大會全稱International Conference on Very Large Data Bases,是數據庫及相關領域研究者、供應商、參與者、應用開發者所普遍關注的主要國際學術會議,也是公認的數據庫領域三大頂級會議 (SIGMOD、VLDB、ICDE) 之一,反映了當前數據庫研究的前沿方向、工業界的最新技術以及各國的研發水平。在發表論文難度和受關注程度上,與SIGMOD可謂並駕齊驅。併發
根據大會官方公佈,今年VLDB共接收了128篇Research Paper、22篇Industrial Paper和48個Demo。從投稿數量與錄用率來看,Research Paper投稿677篇,錄用率18.9%,Industry Paper爲72/30.6%,**只有具備極高創新性的論文才有機會被VLDB錄用。
**
做爲阿里巴巴IT基礎設施的重要組成部分,阿里雲數據庫在工程實踐和技術創新上一直走在領域前列,相關研究成果已屢次入選國際數據庫頂級會議(SIGMOD、VLDB、ICDE等)。本次VLDB大會,阿里雲數據庫共有3篇論文被收錄,下面小編將對入選的論文佳做進行彙總賞析,萃取精華之精華,以饗讀者。機器學習
亮點:阿里雲攜手浙江大學的最新聯合研究成果入選Industrial Trackasync
做者:浙江大學Jingtian Zhang、Sai Wu、Zeyuan Tan、Gang Chen,阿里雲數據庫產品事業部成柱石、曹偉、高玉嵩、酆曉傑分佈式
附送論文下載連接:http://www.vldb.org/pvldb/vol12/p2183-zhang.pdfide
「Many previous in-memory indexes, although showing significantly better performance than skip-list, have not been integrated with the real systems and thus, there is no clue about how they will work with other system modules. S3, on the other hand, can be easily integrated with the disk part of RocksDB and LevelDB, because it maintains the same interface.高併發
The top layer is cache-oblivious, while the bottom layer can speed up the lookup operations of skip-list.
It’s an interesting idea to use a neural model, LSTM, to tune the index, i.e., optimizing guard entry selection and using some rules to optimize multi-thread access.
Extensive experiments for comparison of the proposed method with different in-memory indexes have been conducted and the result shows benefit, not to mention that it is implemented in a real system RocksDB.」
亮點:阿里巴巴在數據庫智能化方向的重要里程碑,入選Research Track
做者:阿里雲譚劍、鐵贏、飛刀、艾奧、祺星、池院、洪林、石悅、鳴嵩、張瑞
附送論文下載連接:http://www.vldb.org/pvldb/vol12/p1221-tan.pdf
基於數據驅動和機器學習算法的數據庫參數優化是近年來數據庫智能優化的一個熱點方向,但也面臨着很大的技術挑戰。要解決的問題是在大規模數據庫場景下,如何對百萬級別運行不一樣業務的數據庫實例完成自動配置,同時權衡性能和成本,在知足SLA的前提下資源成本最低,該技術對於CSP(Cloud Service Provider)有重要價值。
學術界近一兩年在該方向有一些研究(好比CMU的OtterTune),但該算法依賴於一些人工先驗經驗且在大規模場景下不具有可擴展性。據瞭解, 其餘雲廠商Azure SQL Database以及AWS該方向都有投入,目前還沒有看到相關論文或產品發佈。
從18年初開始,阿里雲開始數據庫智能參數優化的探索,從問題定義,關鍵算法設計,算法評估及改進,到最終端到端自動化流程落地,多個團隊通力合做完成了技術突破且實現了大規模落地。
這項工做不只在數據庫智能參數優化理論方面提出了創新想法,並且目前已經在阿里集團~10000實例上實現了規模化落地,累計節省~12%內存資源,是目前業界惟一一家真正實現數據庫智能參數優化大規模落地的公司。
通過算法探索和端到端自動Buffer Pool優化流程建設,FY2019集團內全網最終優化 ~10000 個實例,將總體內存使用量從 217T內存縮減到 190T內存,節省 12.44%內存資源(27TB)。
論文深度解讀請戳⬇️:
[前沿 | VLDB 2019論文解讀:阿里巴巴大規模數據庫智能參數優化的創新與實踐
](https://mp.weixin.qq.com/s/KHHvr39lt2KL8FVFp9y25w)
Lessons learned from tuning many database instances in a production system offer interesting insights to the data management community.
It is encouraging to see how deep neural networks can help with tuning a parameter of the database system and how its results are used by the control plane of a large scale deployment to tune many database instances in a rolling fashion.
亮點:阿里雲大規模、海量數據實時分析型數據庫系統——AnalyticDB最新研究成果入選Industrial Track
做者:阿里雲數據庫產品事業部佔超羣、蘇茂萌、魏闖先、彭曉強、林亮、汪晟、陳哲、李飛飛、潘岳、鄭方、柴成亮
附送論文下載連接:http://www.vldb.org/pvldb/vol12/p2059-zhan.pdf
已有的分析型數據庫(如下簡稱OLAP)諸如Impala、Pinot、Druid等,總結了OLAP系統在設計的過程當中應該解決的問題:低延遲、數據新鮮度、多樣性、低成本、高擴展性、高可靠性。和這些已有的OLAP系統相比,AnalyticDB承載着更大的規模:2000+臺物理機器、10PB+規模數據、百萬張數據表以及萬億條數據行。
論文講述了AnalyticDB如何在設計與實現上,不只解決了已有OLAP系統的問題,還攻克瞭如下三大業界難題:
深度解讀請戳⬇️:
前沿 | VLDB論文解讀:阿里雲超大規模實時分析型數據庫AnalyticDB
This paper presents a solid OLAP database integrating a few interesting and well-designed ideas including an asynchronous all-column index, an extended hybrid row-column layout and a read/write decoupling architecture. The presentation is clear and the solution has been shown to be effective empirically.
The combination of different design choices indicate that the system achieves significant performance improvements over other similar systems.
本文爲雲棲社區原創內容,未經容許不得轉載。