近日,全球著名開源社區Apache基金會宣佈「百度開源的Doris項目全票經過進入Apache孵化器」。這是百度繼ECharts後第二個進入Apache基金會的項目,充分彰顯了百度「開源速度」。web
Doris是百度開發的面向在線報表和分析的數據倉庫系統,能夠對標於商業的 MPP 數據倉庫系統,好比Greenplum、Vertica、Teradata 等。apache
Doris 前身是百度Palo,自2017年8月在Github上開源以來,收穫700多個Star,目前性能和易用性方面已達到業界領先水平。同時,Doris 在百度內部應用於200多個產品線,在公有云和ToB業務中也得到了高度承認,外部已有包括小米、瓜子在內的十多家公司使用。安全
Doris 主要基於 C++ 和 Java 開發,集成了 Google Mesa 和 Apache Impala 的技術。其中Mesa 是一個高度可擴展的分析數據存儲系統,用於存儲與 Google 互聯網廣告業務相關的關鍵測量數據。Impala是一種基於Hadoop數據處理環境的現代 MPP SQL 引擎。併發
Doris項目負責人馬如悅介紹到:「在 Mesa 與 Impala 進行組合的基礎上,Doris 被設計爲一個不依賴於其餘系統的簡單且單一緊密耦合的系統,並實現了MySQL協議,使得用戶能夠像使用 MySQL 同樣無門檻的過渡到Doris,包括各類報表應用均可以經過MySQL協議鏈接 Doris,同時得到高併發低延遲點查詢性能,並且還能進行高吞吐量的即席分析查詢。Doris 不只提供大批量數據加載,並且還提供近乎實時的小批量,甚至流數據加載。此外Doris還具有高可用性,可靠性,容錯性和可擴展性。」高併發
Doris博採衆長,並在此基礎上進行了大膽創新,造成了本身獨特的優點,其特色主要包括:1)徹底兼容MySQL協議;2)採用列式存儲、對數據以高壓縮比進行壓縮存儲、向量化執行、LLVM優化等先進技術,所以得到了極高的查詢效率;3)支持多種存儲模型:同時支持相似於Mesa將列分爲Key和Value的存儲模型,同時支持Unique Key和Dup Key的存儲模型。用戶能夠根據本身的業務場景,選用不一樣的存儲模型;4)支持兩層分區;5)支持多種數據導入方式;6)安全資源隔離擴容縮容;7)備份和恢復;8)支持web監控和管理;oop
百度開源推動組負責人譚中意也表示:「百度抱着參與、回饋、影響社區的態度進行各類開源活動,充分尊重和理解開源社區的規則和精神,而繼 ECharts 成爲 Apache 基金會的孵化項目後,百度繼續捐獻Doris項目給apache 基金會,百度會繼續跟各個開源社區進行更加普遍和深刻的合做。」性能
Doris項目Champion及導師、Apache基金會副總裁Dave Fisher表示:「很榮幸,也很高興做爲Champion參與Doris在 Apache基金會的孵化過程,這是咱們第二次看到百度捐獻優秀的項目到Apache基金會,咱們很高興看到百度在開源方面的巨大進步和突破。Doris做爲面向在線報表和分析的數據倉庫系統,具備獨特的實現優點和較爲豐富的使用前景,加入Apache基金會進一步代表Doris擁抱開源的決心,在遵循‘the Apache Way’的基礎上,打造一個更爲中立、開放、多元的社區文化,讓更多人享受Doris項目帶來的技術革命。」優化