混合雲模式下 MaxCompute + Hadoop 混搭大數據架構實踐

摘要:2019杭州雲棲大會大數據企業級服務專場,由鬥魚大數據高級專家張龍帶來以 「混合雲模式下 MaxCompute+Hadoop 混搭大數據架構實踐」 爲題的演講。本文講述了從 Apache Hadoop 階段到 Cloudera CDH 階段鬥魚大數據架構的發展歷程。提出了上雲過程當中鬥魚遇到的問題和跳戰,包括數據安全、數據同步以及遷移任務。歸納了混合雲模式給鬥魚帶來資源效率更高和資源成本更低的變化。

精彩視頻回放 >>>安全

如下爲精彩視頻內容整理:網絡

鬥魚大數據架構發展歷程

在2014年中期,鬥魚就開始使用大數據,最開始使用的是簡單的HBase和Hadoop。在2015年,開始使用CDH運維大數據集羣,主要針對可視化運維。在2017年的下半年,鬥魚開始接觸阿里雲大數據的一些產品,而且與其餘產品作了對比。最終選擇了阿里雲的MaxCompute。架構

Apache Hadoop階段運維

因爲業務場景比較簡單,組件較少,而且使用的人也少,但能夠靈活的操做,同時集羣規模較小,運維要求低,能夠自由的利用開源,培養了許多人才。但在發展過程當中也遇到了一些阻礙,例如:組件增多,運維成本高,業務增加快,集羣擴容操做繁瑣,人員增長,數據安全要求高,物理機操做,環境安全難保障。工具

Cloudera CDH階段oop

鬥魚爲什麼選擇Cloudera CDH?緣由主要有:首先,它能知足業務發展須要,多組件運維成本低,集羣擴容操做簡單,數據安全及環境安全有保障。其次,CDH在國內被普遍使用。最主要的一點是鬥魚的團隊內部有CDH人才。測試

Cloudera CDH給鬥魚帶來了許多便利,包括支持豐富的組件,不用考慮兼容性,能夠經過CM統一管理,進行Web化管理,同時支持中文。另外,支持安全管理,以及對Kerberos安全認證。大數據

自建集羣遇到了發展瓶頸,涉及到資源效率問題和資源成本問題。資源效率問題包括資源預算審批慢、機器採購週期長以及機房部署效率低。資源成本問題包括機器資源成本高、機房成本高還不穩定以及閒時資源空置較多。阿里雲

大數據上雲的挑戰

上雲面臨的挑戰主要是如何保證數據安全,由於數據是企業核心的資源,安全性是很是關鍵的。其次是如何保持數據同步,是由於雲上雲下存在着海量數據。最後,由於雲下存在大量的歷史業務,那該如何將業務安全遷移到雲上也是一個問題。spa

  • 如何保證數據安全?

    對於數據丟失的問題,阿里使用原始數據進行備份,這是很關鍵的。對於核心數據泄露問題,概率是很小的,由於泄露數據以後所要承擔的風險遠大於戰勝競爭對手所提供的收益。對於雲環境面向外網,如何保證安全訪問的問題,能夠增長帳號訪問IP白名單及審計,設置公司內部纔可訪問。

  • 如何保持數據同步?

    因爲天天會產生PB級歷史數據和TB級數據增量。如何快速準確同步數據問題,可使用數據同步工具,主要是基於DataX的改造。同時提升網絡專線能力,增長多根專線,自動地進行異常切換,與雲上平臺業務進行隔離。利用數據校驗工具,校驗數據同步任務以及數據量。

  • 如何安全遷移業務?

    業務的安全遷移須要作到三個要求:1.不能引發故障,保證遷移可行性驗證。2.遷移成本不能過高,業務側儘可能少改動。3.能上雲也要能下雲,儘可能保證雲上雲下操做一致性。

爲了作到不引發故障,要作到三個須要:須要作業務場景測試,保證業務場景所有覆蓋到,而且可以識別可以遷移的業務場景。須要數據質量檢驗,確保相同業務雲上雲下產出數據的一致性。須要數據效率驗證,確保雲上任務數據產出時間,同時不影響業務。

  • 如何保證較低的遷移成本?

    鬥魚在IDC中運行的任務主要分兩部分,第一部分是Java任務,佔比很小,特色是基於封裝的HiveClient工具進行查詢計算。第二部分是XML配置化任務,特色是基於自定義XML文件,支持HiveSQL統計後導入其餘存儲。針對這些任務的特色,鬥魚也作了相應的改造。針對封裝OdpsClient,能夠將HiveClient改爲OdpsClient,而且改Hive URL爲雲環境。針對加模板改URL,能夠引入MaxCompute參數模型,改Hive URL爲雲環境。

爲了保證能上雲也能下雲,第一,須要數據能上能下,就是前面提到的數據同步中心。 第二,須要完善的配套工具,雲上雲下環境儘可能透明化使用。第三,多使用通用功能,經過SQL+UDF能覆蓋大部分場景。

混合雲模式帶來的變化

混合雲模式帶來的變化主要針對資源效率低,難以跟上業務發展,以及資源成本高,企業財務壓力大兩方面。在資源效率方面,從自建集羣到MaxCompute有一些變化,包括提早半年或一年提預算變成按量付費,採購耗時1到3個月變成資源能夠無限使用,機房上架1周以上變爲無機房概念。相比於IDC自建集羣,MaxCompute每一年大概節約1000w成本,保障集羣零故障。同時也有一些附加的收益,包括阿里雲的專業服務,當遇到技術問題時能夠請教阿里的專家來幫助解決,以及計算資源能夠量化,能夠知道錢花在哪些業務了,以及與阿里專家交流,幫助解決業務難題。

在自建機房時,鬥魚也作了一些開發,下圖所示爲數據開發,包括基於Hue的查詢計算和雲上的DataStudio數據開發,而後將Hue的API和DataStudio的API集中起來造成鬥魚的大數據開放平臺,做用是能夠提供給數據部門的人使用,也能夠提供給業務部門的分析人員使用。

此外,鬥魚也作了一些實踐,稱爲多活數據中心,以下圖所示。鬥魚經過確立自建機房的數據和阿里雲數據在這兩個數據中心的角色,保證能夠在多活數據中心的狀態下支撐更多的業務。

混合雲帶來的變化總結起來,資源成本和資源效率是最大的兩個變化,還有可量化的成本、增值服務、額外的專業服務等,不只能夠給咱們本身部門人員用,還能夠給其餘業務部門的人來用,而且他們對使用成本也是直接可見的。以上就是我今天的分享,謝謝你們。

更多MaxCompute產品與技術信息請訪問產品官網 >>>

阿里雲雙11億元補貼提早領,進入抽取iPhone 11 Pro:https://www.aliyun.com/1111/2...


本文做者:晉恆

閱讀原文

本文爲雲棲社區原創內容,未經容許不得轉載。

相關文章
相關標籤/搜索