應用AI芯片加速 Hadoop 3.0 糾刪碼的計算性能

時間 2019-11-15

原文原文鏈接

本文由雲+社區發表算法

作爲大數據生態系統中最重要的底層存儲文件系統HDFS，爲了保證系統的可靠性，HDFS經過多副本的冗餘來防止數據的丟失。一般，HDFS中每一份數據都設置兩個副本，這也使得存儲利用率僅爲1/3，每TB數據都須要佔用3TB的存儲空間。隨着數據量的增加，複製的代價也變得愈來愈明顯：傳統的3份複製至關於增長了200%的存儲開銷，給存儲空間和網絡帶寬帶來了很大的壓力。所以，在保證可靠性的前提下如何提升存儲利用率已成爲當前HDFS應用的主要問題之一。網絡

針對這些問題，英特爾、Cloudera、華爲以及其餘的Apache Hadoop communit共同參與開始引入糾刪碼（Erasure Coding，EC）技術，在保證數據可靠性的同時大幅下降存儲開銷，節省2倍的存儲空間。該feature計劃在Hadoop3.0版本發佈。架構

什麼是糾刪碼 EC

Erasure coding糾刪碼技術簡稱EC，是一種數據保護技術。最先用於通訊行業中數據傳輸中的數據恢復，是一種編碼容錯技術。他經過在原始數據中加入新的校驗數據，使得各個部分的數據產生關聯性。在必定範圍的數據出錯狀況下，經過糾刪碼技術均可以進行恢復。框架

在存儲系統中，糾刪碼技術主要是經過利用糾刪碼算法將原始的數據進行編碼獲得校驗，並將數據和校驗一併存儲起來，以達到容錯的目的。其基本思想是將ｋ塊原始的數據元素經過必定的編碼計算，獲得ｍ塊校驗元素。對於這ｋ+ｍ塊元素，當其中任意的ｍ塊元素出錯（包括數據和校驗出錯），都可以經過對應的重構算法恢復出原來的ｋ塊數據。生成校驗的過程被成爲編碼（encoding），恢復丟失數據塊的過程被稱爲解碼（decoding）。oop

Reed-Solomon（RS）碼是存儲系統較爲經常使用的一種糾刪碼，它有兩個參數k和m，記爲RS(k，m)。如圖1所示，k個數據塊組成一個向量被乘上一個生成矩陣（Generator Matrix）GT從而獲得一個碼字（codeword）向量，該向量由k個數據塊和m個校驗塊構成。若是一個數據塊丟失，能夠用(GT)-1乘以碼字向量來恢復出丟失的數據塊。RS(k，m)最多可容忍m個塊（包括數據塊和校驗塊）丟失。佈局

EC性能

HDFS引入EC碼的優點和劣勢

優點

EC碼的優點是顯而易見的，能夠大幅度的下降數據的存儲空間。特別是PB、EB級的場景下，會極大的削減存儲的成本。學習

劣勢

EC技術的優點確實明顯，可是他的使用也是須要一些代價的，一旦數據須要恢復，他會形成兩大資源的消耗:fetch

網絡帶寬消耗（數據恢復須要去讀其餘的數據塊和校驗塊），CPU消耗（編解碼計算）。大數據

GPU、TPU加速糾刪碼的運算

從上面的EC碼優缺點對比能夠看出，雖然EC碼能夠大幅的節省空間，可是由於在存儲和恢復的過程當中須要額外的運算。用在線上系統的時候，一旦有節點掛掉觸發數據恢復，計算量是比較大的，可能會對集羣的總體性能形成影響，拖慢正常的計算任務。

在上面的介紹中咱們看到，EC碼的計算實際上就是矩陣相乘的計算，而目前AI業界最火熱的神經網絡的計算也是當量的矩陣相乘相加。由此咱們能夠大膽的想象，是否能夠利用目前GPU和TPU對矩陣運算的優化，來加速EC碼的計算性能呢？

目前業界比較領先的兩個AI計算加速芯片分別爲NVIDIA的Volta GPU架構和Google的TPU。

對於純矩陣相加相乘的運算，GPU或TPU相比於CPU，性能的提高能夠達到50~80倍。

NVIDIA

NVIDIA的Tesla V100提供了120個專門用於矩陣運算的Tensor Core。每一個 Tensor Core 包含一個 4x4x4 的矩陣處理陣列來完成 D=A x B + C 的運算，其中 A、B、C、D 是 4×4 的矩陣，以下圖所示。矩陣相乘的輸入 A 和 B 是 FP16 矩陣，相加矩陣 C 和 D 多是 FP16 矩陣或 FP32 矩陣。

Tensor Core

每一個 Tensor Core 每一個時鐘可執行 64 次浮點 FMA 混合精度運算（FP16 乘法與 FP32 累加），一個 SM 單元中的 8 個 Tensor Core 每一個時鐘可執行共計 1024 次浮點運算。相比於使用標準 FP32 計算的 Pascal GP100 而言，單個 SM 下的每一個深度學習應用的吞吐量提高了 8 倍，因此這最終使得 Volta V100 GPU 相比於 Pascal P100 GPU 的吞吐量一共提高了 12 倍。Tensor Core 在與 FP32 累加結合後的 FP16 輸入數據之上操做。FP16 的乘法獲得了一個全精度結果，該結果在 FP32 和其餘給定的 4x4x4 矩陣乘法點積的乘積運算之中進行累加。

TPU

TPU是Google爲TensorFlow定製化的AI加速芯片。這個TPU芯片是面向datacenter inference應用。它的核心是由65,536個8-bit MAC組成的矩陣乘法單元（matrix multiply unit），峯值能夠達到92 TeraOps/second (TOPS) 。有一個很大的片上存儲器，一共28 MiB。它能夠支持MLP，CNN和LSTM這些常見的NN網絡，而且支持TensorFLow框架。摘要裏面還能夠看出，傳統CPU和GPU使用的技術（caches, out-of-order execution, multithreading, multiprocessing, prefetching）它都沒用，緣由是它面向的應用都是deterministic execution model，這也是它能夠實現高效的緣由。它的平均性能（TOPS）能夠達到CPU和GPU的15到30倍，能耗效率（TOPS/W）能到30到80倍。若是使用GPU的DDR5 memory，這兩個數值能夠達到大約GPU的70倍和CPU的200倍。

TPU

前景分析

因爲HDFS的內部邏輯已然十分複雜，社區對於HDFS EC碼的改造須要分幾個步奏來實現：

用戶能夠讀和寫一個條形佈局（Striping Layout）的文件；若是該文件的一個塊丟失，後臺可以檢查出並恢復；若是在讀的過程當中發現數據丟失，可以當即解碼出丟失的數據從而不影響讀操做。
支持將一個多備份模式（HDFS原有模式）的文件轉換成連續佈局（Contiguous Layout），以及從連續佈局轉換成多備份模式。
編碼器將做爲插件，用戶可指定文件所使用的編碼器。

編碼器能夠做爲獨立的插件，從而能夠將使用AI加速硬件的編碼器做爲獨立的插件，分發到有GPU或TPU硬件資源的集羣中。特別是Hadoop 3.0的yarn組件目前也在也k8s深度整合，作一些GPU硬件資源的調度和管理。

此文已由做者受權騰訊雲+社區在各渠道發佈

獲取更多新鮮技術乾貨，能夠關注咱們騰訊雲技術社區-雲加社區官方號及知乎機構號