開源軟件正在吞噬世界,在將來,沒有一家企業可以脫離它們,也不可能存在一家企業可以脫離開源的開發協做方式,也沒有一家企業會拒絕這種本質上是共贏的局面。本文來自網易數帆旗下網易易數研發團隊,記錄其2020年在Apache Spark上的點滴貢獻。
根據『紅帽® 2020 年度企業開源現狀報告』,企業對於開源的擁抱程度逐漸加強:java
愈來愈多的企業意識到開源的重要性。有 95% 的 IT 領導者認爲,企業開源對於他們的企業基礎架構軟件戰略相當重要。
網易與Apache Spark
Apache Spark 目前是網易集團內部主流大數據計算引擎,日承接PB級數據處理,涵蓋離線計算、實時計算和傳統機器學習等方方面面的任務。python
爲了減小Spark在網易內部的維護成本,和促進 Spark 新技術在網易的快速落地,網易易數團隊採起了如下三個策略。git
1. 一體化
文末所附清單不徹底統計了截至2020年末網易人在Apache Spark 的主要貢獻,約 300 commits。數據庫
2. 插件化
1. Spark-ranger apache
Spark-ranger 是權限控制插件,爲提供Spark計算引擎 SQL 標準的細粒度權限控制,包括列級別的鑑權、行級別的過濾,及數據匿名等功能。在大數據數倉場景下,Spark SQL做爲一款高性能的查詢引擎在數據安全方面的功能一直是其短板。本項目創立的目的,旨在彌補猛獁產品在數倉管理功能上最後一塊權限漏洞。Spark-ranger 做爲猛獁安全組件的一部分,在公司內部天天須要爲業務方數十萬的Spark任務提供鑑權服務,同時也在公司外部全部的商業局點保證着客戶的數據安全。項目目前已經託管給Apache 基金會,做爲一個子模塊在 https://submarine.apache.org/ 項目中進行維護。json
2. Spark-greenplum
Spark-greenplum 是大數據數倉和PostgreSQL及Greenplum數據庫的性能傳輸工具,提供Apache Spark原生 API 百倍性能的提高。項目創立的目的是爲了提高網易猛獁和網易有數之間數據交換的能力。Spark-greenplum 項目用於網易有數從網易猛獁大數據平臺的取數環節。
Spark-greenplum 開源地址:https://github.com/NetEase/spark-greenplum
3. Spark-alarm
Spark-alarm 是細粒度的 Spark 任務監控工具,能夠對 Spark 任務進行全面的監控,已經自定義關鍵指標的監控,並提供豐富的報警手段,如網易哨兵,郵件和EasyOps等。項目的目的是有效的保障各種業務KPI/SLA任務的安全運行。spark-alarm 是一個任務級別的SDK,目前提供網易內部各業務方,埋點在各自的關鍵任務中。
3. 生態化
在大數據領域,咱們最初圍繞Google的三篇論文打造了Apache Hadoop生態,而後咱們有圍繞Hadoop生態構建了活躍的Apache Spark生態,如今又有不一樣層面的產品,如數據湖等圍繞該生態構建實現真正的批流一體靜計算,同時和CNCF的Kubernetes社區又能夠交叉融合實現大數據與雲計算的深度融合。咱們也基於該生態之上,從網易及網易合做夥伴的業態出發,打造了Kyuubi生態。
Kyuubi是高性能大數據JDBC通用服務引擎。在大數據領域,Kyuubi以靈活的架構和統一的SQL API去適配不一樣的計算引擎以追求極致的計算性能,適配不一樣的資源調度器以適應存算耦合分離的自由切換,適配不一樣的計算模型以實現批流一體架構, 適配不一樣的業務場景以實現一站式的大數據應用開發。目標是讓用戶能像處理普通數據同樣處理大數據。
第2、高性能的數據查詢能力。Kyuubi依託Apache Spark及Flink等計算引擎提供高性能的數據查詢能力,引擎自身能力每一次提高均可以幫助 Kyuubi服務的性能產生質的飛躍,在此基礎之上,Kyuubi 同時提供數據緩存、查詢動態優化等能力進一步提高性能。一方面,對於訪問頻率高的查詢經過設置緩存提高查詢效率;另外一方面,根據用戶訪問數據量的規模動態優化查詢計劃,在支持海量結果流式返回的同時保證性能優化。
第3、完備的企業級特性支持。依託 Kyuubi 自身架構的特色,提供認證、鑑權服務,保障數據安全性;提供健壯的高可用服務,保障服務的可用性;提供多租戶資源資源隔離的能力,提供端到端的計算資源及數據安全隔離;提供兩級彈性資源管理,在有效提高資源利用率的基礎上合理控制成本,而且有效的覆蓋交互式、批處理和點查、全表Scan等各類場景的性能及響應要求。
第四,豐富的生態支持與構建。一個優秀的開源產品離不開優秀的開源生態支持。Kyuubi 在擁抱Spark等頂級開源生態的同時,一方面有效的利用這些項目自己生態的開放性,能夠快速使得Kyuubi對其既有生態及新特性新生態的拓展,如雲原生支持、數據湖(Data Lake/Lake House)的支持;另外一方面,Kyuubi也積極構建和完善本身的生態,彌補各個環節的空缺,如 https://github.com/netease/spark-ranger項目可完善大數據鏈路中權限控制短板,https://github.com/netease/spark-greenplum項目可解決Spark與傳統數據庫PostgreSQL和MPP數據庫Greenplum數據交換的性能問題等等。
附:截至2020年末網易人在Apache Spark 的主要貢獻
