在近日由網易數帆、Intel聯合舉辦的網易數帆技術沙龍大數據專場上,網易數帆大數據專家、Apache Spark Committer姚琴,有贊基礎架構組OLAP負責人陳琦,Intel資深軟件開發工程經理、Apache Hive Committer徐鋮,網易雲音樂數據專家雷劍波,以及網易數帆大數據產品專家顧平等五位專家,分別就Serverless Spark、ClickHouse、Spark/Flink加速、數據倉庫和數據產品等話題分享了各自團隊的最新實踐。git
網易數帆大數據專家、Apache Spark Committer姚琴分享了數帆開源項目Kyuubi的研發初衷、設計要點及其在網易的實踐。Kyuubi 是一個遵循 HiveSever2 的 RPC 實現的分佈式 JDBC 服務,在 Spark 賦予多租戶能力後,可讓它成爲一個理想的 Hive QL遷移 Spark SQL的平臺,其次它將整個 SQL 的 Compiler(編譯優化) 和 Runtime(執行) 所有交由 Spark 實現,能夠得到很是卓著的性能。在這個框架之下,網易數帆整合 Kyuubi 和 Spark 的一些高級特性,開始了 Serverless Spark(Spark as a service)之旅。github
因爲 Kyuubi 封裝 Spark 高階 API,經過C / S 架構提供,用戶對 Spark 相關的概念和框架「無感知」,更加專一於本身的業務和數據自己。這能夠知足更多人更多業務對大數據的直接需求。數據庫
在網易內部,Kyuubi已經幫助網易傳媒業務完成 Hive QL 任務至 Spark SQL的平滑遷移,在完成計算資源資源節省50%的前提下,整體時耗同步縮減70%,綜合性能提效727%。此外,團隊還正在幫助業務線實施 Spark 做業從 YARN 集羣上遷移到 Kubernetes 的工做。緩存
視頻回放:www.bilibili.com/video/BV116…markdown
PPT下載:sq.163yun.com/resource/do…架構
Kyuubi開源地址:github.com/NetEase/kyu…框架
有贊基礎架構組OLAP負責人陳琦從三個方面介紹了ClickHouse在有讚的使用和優化:1)ClickHouse在有讚的發展,平臺化建設,應用場景,好比DMP,SCRM,CDP等場景的落地和優化。2)千億級別數據量的離線讀寫分離,使用離線寫入K8s臨時構建集羣來實現離線數據的讀寫分離,從而解決寫多讀少的業務發展問題。3)自研新數據庫的探索POC,嘗試去融合Doris和ClickHouse,來解決雙方的痛點。less
陳琦介紹,ClickHouse 不太像一個傳統意義上的分佈式數據庫,總體比較 「手動檔」,不少地方都須要用戶本身去設計一個流程去完善,好比寫入,物化視圖等;同時,ClickHouse 也沒有自動 Rebalance 的能力,致使擴容縮容運維特別複雜。相比之下,Apache Doris 更像一個分佈式數據庫,也解決了部分痛點,好比可以自動平衡,支持Shuffle Join 等,但目前爲止其單表性能、成熟度及穩定性還不如 ClickHouse。運維
因而,有贊嘗試利用高性能的 ClickHouse 算子實現替換基於 Impala 的 Apache Doris,在將來打造出更好的分佈式 OLAP 數據庫。從 POC 實現效果來看,該方案是可行性的。分佈式
視頻回放:www.bilibili.com/video/BV1h6…
PPT下載:sq.163yun.com/resource/do…
Intel軟件開發工程經理、Apache Hive Committer徐鋮分享瞭如何使用Intel開源項目Optimized Analytics Package (OAP)加速Spark、Flink的性能,介紹了現有Spark框架在內存管理、Shuffle實現等層面性能有進一步提高的空間。以及如何更好利用新硬件,好比利用Intel Optane PMEM(持久化內存)技術,發揮Optane的持久特性、原地擦寫、字節尋址和低延遲等獨特價值上,Spark有諸多進一步優化的功能點。
徐鋮重點解讀了OAP Analytic Cache特性,包括利用Arrow中高性能模塊、Spark/Flink的cache awareness、Disaggregated cache、Filter/Project/Aggregation下放和高性能壓縮加速器QAT支持等。以Spark cache awareness爲例,OAP擴展了現有Spark data source scan可以識別已緩存的熱數據塊,利用cache location provider來提供調度層面的cache
awareness,並針對不一樣的使用場景支持了多種cache location provider。
視頻回放:www.bilibili.com/video/BV1zb…
PPT下載:sq.163yun.com/resource/do…
OAP開源地址:github.com/oap-project…
網易雲音樂數據專家雷劍波介紹,網易雲音樂正在經過規範化、共享化、自助化的統一數倉體系,下降數據使用門檻,提高決策利用效果,並實現數據驅動業務增加。他從流量數據治理和數據資產沉澱兩個方面,分享了網易雲音樂應對挑戰的實踐和思考,以及取得的成果。
在流量數據治理方面,埋點是一個巨大的痛點,具體包括埋點格式差別較大,埋點前環節缺少規範、需求評審,客戶端埋點實現無較好的技術設計、工程規範,多數聚合流量需從新提JIRA單等,網易雲音樂經過事前創建埋點規範、事中重造埋點流程、過後推進灰度稽覈等措施實現治理。在這個過程當中,網易雲音樂經過與網易數帆共建了easyTracker埋點管理平臺、easyFetch自助取數平臺等系統,來保證埋點的規範化和流量數據服務自助化。
視頻回放:www.bilibili.com/video/BV1To…
PPT下載:sq.163yun.com/resource/do…
網易數帆大數據產品專家顧平分享了網易嚴選數據產品實踐——他從0到1構建了網易嚴選的數據產品體系和數據中臺體系。網易嚴選業務正走向「數據中臺支撐+數據產品驅動」的雙引擎模式,釋放數據價值以支持創新業務的探索,顧平結合網易嚴選的業務實踐,分享覆蓋營銷和供應鏈的數據產品體系建設思路與步驟,並介紹做爲支撐的數據中臺及數據治理的相關經驗。
支撐嚴選「品牌+平臺」運營模式,嚴選數據產品覆蓋數字化運營、數字化管理和數字化供應三個層面,包括了商品數據運營平臺、營銷數據運營平臺、移動數據工做臺、供應鏈數據運做平臺四大數據產品。其中移動數據工做臺是嚴選開發的第一個數據產品,該產品主要面向管理層的數據化管理,有助於自上而下推進數據產品體系成功建設。顧平表示,數據產品能夠和業務系統相鏈接,提供異常監控診斷、決策建議,但若是沒有數據中臺的支撐,數據產品就沒法實現。基於網易有數的能力,嚴選高效高質量地落地了數據體系建設。