北京時間2021年6月21日,全球頂級開源組織Apache基金會宣佈,網易數帆開源的大數據項目Kyuubi以全票經過的表現,正式進入Apache基金會孵化器。 根據投票結果,Kyuubi得到了13個約束性投票(binding votes)和8個無約束性投票(non-binding votes),投票所有持贊贊成見,無棄權票和反對票。html
Kyuubi 是網易第一款貢獻給 Apache 基金會進入孵化器的開源項目。開源至今,Kyuubi 已累積接受了 29 位國內外開發者超過 200 個以上的提交。固然,進入Apache 孵化器只是一小步。 將來, Kyuubi 社區將遵循「The Apache Way」, 打造更加多元化的生態和社區,由衷地歡迎更多的貢獻者、用戶可以參與到Kyuubi社區中來。git
Kyuubi 系統介紹
Kyuubi 的命名源自中國神話《山海經》,意爲「九尾狐」。狐會噴火,象徵Spark;狐有九尾,類比多租戶,在Spark上實現多租戶是系統設計之初的主要目的。而後咱們取了《火影忍者》動漫中角色九尾的羅馬音['kju:bi:],做爲言簡意賅的項目名稱。github
Kyuubi 的最終目標是讓「大數據平民化」。爲實現這個目標,Kyuubi遵循「專業人作專業事」的準則,經過 Kyuubi的 C/S 架構,服務端大數據專家能夠將 Spark 等大數據算力極致優化並高度封裝後提供出來,業務端專家可經過該算力直接在本身擅長的業務領域處理數據產生價值,二者之間也經過簡單的接口進行必要且有效的直接交互。apache
Kyuubi 使用場景
替換 HiveServer2,輕鬆得到 10~100 倍性能提高安全
- Kyuubi 高度兼容 HiveServer2 接口及行爲,支持無縫遷移
- Kyuubi 分層架構,消除客戶端兼容性問題,支持無感升級
- Kyuubi 支持 Spark SQL 全鏈路優化及再加強,性能卓著
- 高可用、多租戶、細粒度權限認證各類企業級特性通通都有
構建 Serverless Spark 平臺架構
- Serverless Spark 目標絕對不是讓用戶調用Spark的API、繼續寫 Spark 做業
- 經過 Kyuubi 預置的 Engine 模塊,用戶無需理解 Spark 邏輯, 入門門檻極低
- 用戶只需經過JDBC及SQL操做數據專一自身業務開發便可,資源彈性伸縮,0運維
- 支持資源管理器(Kubernetes, YARN等),Engine 生命週期,Spark 動態資源分配3級不一樣粒度全方位的資源彈性策略
- 支持YARN/Kubernetes多種資源管理器同時調度,保障歷史做業安全遷移上雲
- Spark 自適應查詢引擎(AQE)及 Kyuubi AQE plus,提供澎湃動力
構建統一數據湖探索分析管理平臺框架
- 支持 Spark 全部官方數據源及第三方數據源
- 支持 Spark DSv2 元數據管理,直觀進行數據湖構建及管理
- 支持 Apache Iceberg/Hudi, DeltaLake等全部主流數據湖框架
- 一個接口一個引擎一份數據,提供統一的分析查詢、數據攝取、數據湖管理平臺
- 批流一體,支持流式做業(Upcoming)
致謝
Kyuubi的成長和發展,尤爲是進入Apache基金會孵化器,獲得了來自各個組織的廣大開源熱愛者、貢獻者以及終端用戶的支持。less
在此,特別感謝給Kyuubi提供指導的Champion和Mentors:姜寧 Willem Ning Jiang 、章劍鋒 Jeff Zhang、張鐸 Duo Zhang、Akira Ajisaka。此外,也感謝提出issue和建議的夥伴們,以及國內外數十家企業用戶的貢獻與支持。運維
很高興Kyuubi項目獲得Apache基金會的承認。Kyuubi項目做爲網易數帆‘人人用數據,每天用數據’理念的支撐技術,以及打造統一雲原生操做系統的重要組件,咱們把它捐獻給Apache基金會,回饋社區,爲普惠大數據貢獻咱們的力量。將來,網易數帆會在面向企業數字化的基礎軟件領域,和各個開源社區進行更加普遍和密切的合做。 ——網易副總裁汪源ide
歡迎加入Kyuubi社區
Kyuubi 社區將踐行"Community Over Code"的 Apache 社區文化,歡迎更多的組織和我的參與到Kyuubi社區建設,促進Kyuubi社區發展。
更多 Apache 孵化進展請參考:https://incubator.apache.org/projects/kyuubi
更多閱讀
項目原始地址:https://github.com/NetEase/kyuubi
項目原始文檔:https://kyuubi.readthedocs.io/en/latest/index.html
Kyuubi: 網易數帆開源的企業級數據湖管理平臺(架構篇)
大數據實戰:Kyuubi 與 Spark ThriftServer 的全面對比分析
提效 7 倍,Apache Spark 自適應查詢優化在網易的深度實踐及改進