【華爲雲技術分享】Spark如何與深度學習框架協做,處理非結構化數據

隨着大數據和AI業務的不斷融合,大數據分析和處理過程當中,經過深度學習技術對非結構化數據(如圖片、音頻、文本)進行大數據處理的業務場景愈來愈多。本文會介紹Spark如何與深度學習框架進行協同工做,在大數據的處理過程利用深度學習框架對非結構化數據進行處理。算法

Spark介紹

Spark是大規模數據處理的事實標準,包括機器學習的操做,但願把大數據處理和機器學習管道整合。sql

Spark使用函數式編程範式擴展了MapReduce模型以支持更多計算類型,能夠涵蓋普遍的工做流。Spark使用內存緩存來提高性能,所以進行交互式分析也足夠快速(如同使用Python解釋器,與集羣進行交互同樣)。緩存同時提高了迭代算法的性能,這使得Spark很是適合機器學習。編程

因爲Spark庫提供了Python、Scale、Java編寫的API,以及內建的機器學習、流數據、圖算法、類SQL查詢等模塊;Spark迅速成爲當今最重要的分佈式計算框架之一。與YARN結合,Spark提供了增量,而不是替代已存在的Hadoop集羣。在最近的Spark版本中,Spark加入了對於K8s的支持,爲Spark與AI能力的融合提供了更好的支持。後端

 

深度學習框架介紹

TensorFlow

TensorFlow最初是由Google機器智能研究部門的Google Brain團隊開發,基於Google 2011年開發的深度學習基礎架構DistBelief構建起來的。因爲Google在深度學習領域的巨大影響力和強大的推廣能力,TensorFlow一經推出就得到了極大的關注,並迅速成爲現在用戶最多的深度學習框架。數組

TensorFlow是一個很是基礎的系統,所以也能夠應用於衆多領域。但因爲過於複雜的系統設計,對讀者來講,學習TensorFlow底層運行機制更是一個極其痛苦的過程。TensorFlow的接口一直處於快速迭代之中,而且沒有很好地考慮向後兼容性,這致使如今許多開源代碼已經沒法在新版的TensorFlow上運行,同時也間接致使了許多基於TensorFlow的第三方框架出現BUG。緩存

 

Keras

Keras 於2015年3月首次發佈,擁有「爲人類而不是機器設計的API」,獲得Google的支持。它是一個用於快速構建深度學習原型的高層神經網絡庫,由純Python編寫而成,以TensorFlow、CNTK、Theano和MXNet爲底層引擎,提供簡單易用的API接口,可以極大地減小通常應用下用戶的工做量。網絡

嚴格意義上講,Keras並不能稱爲一個深度學習框架,它更像一個深度學習接口,它構建於第三方框架之上。Keras的缺點很明顯:過分封裝致使喪失靈活性。Keras最初做爲Theano的高級API而誕生,後來增長了TensorFlow和CNTK做爲後端。學習Keras十分容易,可是很快就會遇到瓶頸,由於它缺乏靈活性。另外,在使用Keras的大多數時間裏,用戶主要是在調用接口,很難真正學習到深度學習的內容。架構

 

PyTorch

PyTorch於2016年10月發佈,是一款專一於直接處理數組表達式的低級API。 前身是Torch(一個基於Lua語言的深度學習庫)。Facebook人工智能研究院對PyTorch提供了強力支持。PyTorch支持動態計算圖,爲更具數學傾向的用戶提供了更低層次的方法和更多的靈活性,目前許多新發表的論文都採用PyTorch做爲論文實現的工具,成爲學術研究的首選解決方案。app

 

Caffe/Caffe2.0

Caffe的全稱是Convolutional Architecture for Fast Feature Embedding,它是一個清晰、高效的深度學習框架,於2013年末由加州大學伯克利分校開發,核心語言是C++。它支持命令行、Python和MATLAB接口。Caffe的一個重要特點是能夠在不編寫代碼的狀況下訓練和部署模型。若是您是C++熟練使用者,並對CUDA計算遊刃有餘,你能夠考慮選擇Caffe。框架

 

Spark大數據處理中使用深度學習框架

在Spark程序中使用一個預訓練過的模型,將其並行應用於大型數據集的數據處理。好比,給定一個能夠識別圖片的分類模型,其經過一個標準數據集(如ImageNet)訓練過。能夠在一個Spark程序中調用一個框架(如TensorFlow或Keras)進行分佈式預測。經過在大數據處理過程當中調用預訓練模型能夠直接對非結構化數據進行直接處理。

咱們重點介紹在Spark程序中使用Keras+TensorFlow來進行模型推理。

使用深度學習處理圖片的第一步,就是載入圖片。Spark 2.3中新增的ImageSchema包含了載入數百萬張圖像到Spark DataFrame的實用函數,而且以分佈式方式自動解碼,允許可擴展地操做。

使用Spark's ImageSchema:

from pyspark.ml.image import ImageSchema
image_df = ImageSchema.readImages("/data/myimages")
image_df.show()

也能夠利用Keras的圖片處理庫:

from keras.preprocessing import image
img = image.load_img("/data/myimages/daisy.jpg", target_size=(299, 299))

能夠經過圖片路徑來構造Spark DataFrame:

def get_image_paths_df(sqlContext, dirpath, colName):
    files = [os.path.abspath(os.path.join(dirpath, f)) for f in os.listdir(dirpath) if f.endswith('.jpg')]
    return sqlContext.createDataFrame(files, StringType()).toDF(colName)

使用Keras接口加載預訓練模型:

from keras.applications import InceptionV3
model = InceptionV3(weights="imagenet")
model.save('/tmp/model-full.h5')
model = load_model('/tmp/model-full.h5')

定義圖片識別推理方法:

        def iv3_predict(fpath):
            model = load_model('/tmp/model-full.h5')
            img = image.load_img(fpath, target_size=(299, 299))
            x = image.img_to_array(img)
            x = np.expand_dims(x, axis=0)
            x = preprocess_input(x)


            preds = model.predict(x)
            preds_decode_list = decode_predictions(preds, top=3)
            tmp = preds_decode_list[0]
            res_list = []
            for x in tmp:
                res = [x[0], x[1], float(x[2])]
                res_list.append(res)
            return res_list

定義推理輸入結果Schema:

def get_labels_type():   
    ele_type = StructType()   
    ele_type.add("class", data_type=StringType())   
    ele_type.add("description", data_type=StringType())   
    ele_type.add("probability", data_type=FloatType())   
    return ArrayType(ele_type)

將推理方法定義成Spark UDF:

spark.udf.register("iv3_predict", iv3_predict, returnType=get_labels_type())

載入圖片定義爲數據表:

df = get_image_paths_df(self.sql)
df.createOrReplaceTempView("_test_image_paths_df")

使用SQL語句對接圖片進行處理:

df_images = spark.sql("select fpath, iv3_predict(fpath) as predicted_labels from _test_image_paths_df")
df_images.printSchema()
df_images.show(truncate=False)

結語

在大數據Spark引擎中使用深度學習框架加載預處理模型,來進行非結構數據處理有很是多的應用場景。可是因爲深度學習框架目前比較多,模型與框架自己是深度耦合,在大數據環境中安裝和部署深度學習框架軟件及其依賴軟件會很是複雜,同時不利於大數據集羣的管理和維護,增長人力成本。

華爲雲DLI服務,採用大數據Serverless架構,用戶不須要感知實際物理集羣,同時DLI服務已經在大數據集羣中內置了AI計算框架和底層依賴庫(Keras/tensorflow/scikit-learn/pandas/numpy等)。DLI最新版本中已經支持k8s+Docker生態,並開放用戶自定義Docker鏡像能力,提供給用戶來擴展本身的AI框架、模型、算法包。在Serverless基礎上,爲用戶提供更加開放的自定義擴展能力。

 

點擊這裏,瞭解更多精彩內容

相關文章
相關標籤/搜索