摘要:2021年4月21日,中國太平洋保險集團聯合華爲雲完成了全球首例大數據集羣跨多版本的大數據集羣滾動升級。
本文分享自華爲雲社區《華爲雲FusionInsight助力太保跨多版本升級業務0中斷》,做者: 沙漏 。架構
2021年4月21日,中國太平洋保險集團聯合華爲雲完成了全球首例大數據集羣跨多版本的大數據集羣滾動升級,突破傳統方案需離線停機屢次升級模式,一次性將核心現網集羣版本由FusionInsight HD C70升級到FusionInsight MRS 8.0.2,橫跨C80、6.5.1兩個版本,同時完成了大數據集羣從物理機向雲服務的模式轉變,實現該案例在金融同業首例突破,樹立同業新標杆。通過爲期兩週的升級實施過程操做,實現太保上層業務無感的平滑滾動升級,全程集羣做業無中斷、性能無影響。本次跨版本滾動升級的成功對金融科技領域意義重大,標誌着中國太平洋保險爲金融同業樹立了大數據服務跨多版本升級、業務連續性和可持續演進的新建設標杆。運維
1、項目背景
中國太平洋保險集團從2017年選擇華爲雲FusionInsight構建保險大數據平臺。隨着太保與華爲雲合做的持續深刻,其內部主要業務系統都已使用華爲雲大數據平臺。可是早期各業務系統都建設了獨立的大數據集羣,數據沒法互通,存在數據冗餘,且多集羣形成維護難問題。截止升級前已建設18套大數據集羣,以FusionInsight HD C70版本爲主。工具
隨着太保業務的高速發展,對大數據平臺的統一管理、數據共享、升級演進有了新的訴求,但願將現網18套生產集羣進行統一升級和歸併,同時面向將來提供大數據集羣可持續演進的能力。oop
爲此,太保聯合華爲雲,決定將現有18套大數據集羣,由FusionInsight HD C70版本統一升級到MRS8.0,升級的主要目標:性能
- 經過對原集羣升級歸併,統一爲一套大集羣,經過資源整合,提升資源利用率;
- 統一到MRS平臺版本資源監控更完善,定位問題更準確;
- 升級到雲平臺,能夠按需靈活調配資源,實現可演進的湖倉一體架構,擴展其餘高階服務。

2、項目內容
2.1 技術挑戰
太保大數據集羣按需部署了HBase、Hive、HDFS、ZooKeeper、YARN、Oozie、Hue、Spark等各種組件。測試
此外,集羣中每日有上萬做業的執行,也爲無感知的滾動升級加大了難度。主要挑戰有如下幾點:大數據
- Hadoop組件內核由X到3.X的跨大版本升級中,社區僅提供了HDFS的滾動升級能力,YARN的社區原生目標版本因爲與原版本協議不一樣,沒法支持滾動升級;
- 社區原生版本的HDFS在升級過程當中,刪除的文件並不會物理刪除,而是移動到trash目錄,這一處理對大容量集羣的滾動升級形成存儲資源壓力,阻礙了剩餘信息保護,若是不能及時清理會致使爆盤問題;
- Hive組件內核由X到3.X的跨大版本升級中,因爲元數據先後格式不兼容、API先後版本有變化、部分語法不兼容等問題,致使社區原生版本沒法支持滾動升級;
- HBase組件內核由X到2.X的跨大版本升級中,API先後版本存在較大的變化,致使社區原生版本沒法支持滾動升級;
- 每日上萬任務量,滾動升級期間如何保障平穩運行,尤爲是損益分析、減值測算等核心場景;
- 600+節點的大數據集羣環境下,須要確保在升級過程當中突發情況,快速應對硬件(磁盤、內存等)故障,不影響升級;
- 70+業務系統,數百個業務在此集羣上運行,滾動升級過程當中須要保證每個業務運行不受損。
2.2 技術保障
滾動升級就是藉助於FusionInsight MRS的高可用機制、主備模式、多副本機制、機架策略等在不影響集羣總體業務的狀況下,一次升級/重啓部分節點。循環滾動,直至集羣全部節點升級到新版本。優化
下圖爲已HDFS組件滾動升級示例:orm

爲應對上述技術挑戰項目組建了滾動升級小組,由社區PMC、社區Commiter、版本Developer構成,主要執行了如下技術保障:blog
- 依託協議同步、元數據映射轉換、API封裝轉換等方式,解決了社區協議不一樣、元數據格式不一樣、API變化等致使的兼容性問題,保障了滾動升級過程當中低版本的組件客戶端的正常使用;

- 針對HDFS社區新版本升級過程當中的文件未刪除問題,額外實現了trash目錄自動清理,將邏輯刪除轉換爲物理刪除,並增補了舊版本按期清理trash目錄的工具。確保了基礎設施資源利用的有效性,下降存儲成本;
- 針對組件升級先後性能情況、升級時長、升級過程當中和過後可能出現的瓶頸點等問題,作了相應架構調整及優化,助力實現滾動升級的全局可控、全程無感、全面無誤;
- 運維管理方面,項目組針對性的研發了升級管理服務界面,能夠端到端、分步驟地完成滾動升級,便於查看滾動升級狀態,實現組件級控制。爲了下降在升級過程當中對關鍵任務服務連續性的影響,項目實現了按升級批次暫停的功能,有助於在關鍵做業或者做業高峯時段,經過暫停升級進行風險規避,確保業務無影響。此外,爲避免各類突發事件中斷升級進程,項目實現了故障節點隔離能力,在故障發生時,能夠跳過對應節點的升級動做,保障了故障處理和升級的同步進行。
2.3 組織保障
項目啓動後,成立了以太保相關領導爲項目經理,以華爲交付和研發、太保的研發和運維爲成員的聯合項目組。本次升級面向的應用部門多達20+,平臺涉及業務數量多且複雜。爲保證滾動升級成功且整個過程當中業務要作到0中斷,在升級前、中、後的6個月裏由華爲方主導,客戶各個業務部門緊密配合,項目組制定了周密的組織保障制度。

太保升級項目組織保障
- 升級前準備階段:在項目組總體協調和華爲的研發支撐下,完成了70+應用代碼改造及驗證,並輸出測試報告;爲充分識別風險,華爲主動提供測試環境硬件資源,項目組聯合各應用部門,進行了3次升級演練的聯合測試;爲達成升級前置條件,華爲專家調研指導,有效的進行了集羣小文件合併、客戶端整改、集羣屢次巡檢、升級方案的反覆評審改進等升級前準備工做;
- 升級過程保障:在升級過程的兩週期間,華爲安排研發、方案等專家現場保障。華爲協同太保聯合項目組制定了24小時排班保障、聯合項目組和應用部門間的信息反饋及溝通(滾動升級中每組件升級完都需業務驗證及確認)、升級操做的聯合項目組受權、升級操做的錄屏監控等制度;
- 升級後觀察:滾動升級完成後,聯合項目組協調各應用部門進行應用業務驗證,且已所有輸出業務運行正常報告。後華爲項目組後續持續觀察兩週時間,確認平臺及應用運行正常後進行了本次升級提交。
3、總結與展望
太平洋保險聯合華爲公司完成的本次金融業首家大數據集羣跨多版本的滾動升級,實現了上層業務無感知、全程集羣做業無中斷、性能無影響,切實保障了客戶的核心利益,也樹立了金融同業新標杆。
隨着數字化技術的不斷迭代升級,將改變傳統保險運營模式,將來主要會呈現出如下三個方向的變革:
- 實現從大數到小數,增強風險數字刻畫,從過去的大數機率到小數更加敏銳的感知,將從根本上改變傳統的運營模式;
- 從實體到虛擬,數據已經是重要的生產資料,經過海量數據識別和評估新型資產的風險,將成爲保險業的核心能力;
- 從保險到治理,數字化將提高保險公司自身風險管理能力,將更多的參與到國家、城市的風險治理當中,逐步從損失補償到風險管理和治理。
面向將來,太平洋保險將攜手華爲持續創新,不斷完善風險生態,貫徹"以客戶需求爲導向"的戰略,建設"專一保險主業,價值持續增加,具備國際競爭力的一流保險金融服務集團"。
點擊關注,第一時間瞭解華爲雲新鮮技術~