Spark的危機與機遇:將來必然是AI框架倒推數據處理框架

做者 | 祝威廉,主要關注大數據/機器學習方向,算法

現丁香園資深數據架構 微信

來源 | 經受權轉載自簡書架構

AI 前線導讀:上週,在 Spark+AI Summit 大會上,Spark 和 Mesos 的核心做者兼 Databrick 首席技術專家 Matei Zaharia 宣佈推出開源機器學習平臺 MLflow,這是一個可以覆蓋機器學習全流程(從數據準備到模型訓練到最終部署)的新平臺,旨在爲數據科學家構建、測試和部署機器學習模型的複雜過程作一些簡化工做。Matei 表示,研究工做主要圍繞着「如何爲開發者提供相似谷歌 TFX、Facebook FBLearner Flow 等平臺相似的好處,可是要以開放的方式——不只在開源的意義上開放,並且是可使用任何工具和算法的意義上開放"的想法展開。AI 前線對這個平臺進行了詳細報道,詳見 《Spark 團隊開源新做:全流程機器學習平臺 MLflow》

對於這個全新的機器學習平臺,你們存在各類各樣的疑問,包括 MLflow 的定位是什麼?它與 TensorFlow 之間是什麼樣的關係?今天咱們帶來了祝威廉老師對於 MLflow 的一些見解,供你們參考。

更多優質內容請關注微信公衆號「AI 前線」,(ID:ai-front)
MLFlow

上週發了一篇文章《Spark 團隊新做 MLFlow 解決了什麼問題》(https://www.jianshu.com/p/2ed60a1dc764 )描述了我對 MLFlow 的一些見解,如今想來,Spark 團隊是很是聰明的,AI 同窗都有本身的社、本身的生態,Spark 則是在工程研發羣體具備很大的影響力,而在 AI 領域並無太大號召力。因此它實際上是沒辦法經過一個顛覆性的東西去讓 AI 同窗轉移過來的,而 MLFlow 並無改變 AI 同窗的原有習慣和流程,它提供了一些輔助工具和標準,解決了一些痛點,慢慢滲透,從而實現慢慢轉型,固然,最後也徹底可能也掀不起什麼波瀾。框架

Spark 光鮮背後的挑戰

第一個即是 AI 浪潮崛起,對 Spark 便是危機也是機遇。DataBrick 如今一直宣稱本身是一家 AI 公司,不過你可能會好奇,爲何 Spark 背後的 DataBrick 公司很差好固守數據處理方面的優點,而不斷嘗試轉型 AI 呢?刨去整個資本市場和技術浪潮不談,其實最大的問題是 將來必然是 AI 框架倒推數據處理框架。AI 框架極可能衍生出適合本身的數據處理框架,好比 TensorFlow,對 tf.data 進行了很大的加強,方便作數據處理。若是 Spark 不主動出擊,將來會很被動。機器學習

第二個就是流式了,隨着流式時代的來臨,而在此以前 Spark 在流式領域一直不緊不慢,加固在批處理方面的優點的同時也喪失了流領域的先機,不少公司(尤爲是雲公司,好比阿里雲、華爲等)都轉向 Flink。我在 16 年的時候,就不斷強調流式計算的重要性,好比這篇文章《數據天生就是流式的》(https://www.jianshu.com/p/9574e359ce35 ),爲此還專門創建了一個專題。這也使得 Spark 在傳統數據處理領域不斷遭受新的挑戰。函數

步履日漸沉重

Spark 還提出了一個 Hydrogen 設計,從而使得 Spark 可以更好地結合深度學習框架。從某種角度而言是順應形勢,但實際上是在轉型 AI 的狀況下不得已而爲之。工具

依然是王者

Spark 依然是我用過最好用的工具,依然有最好的生態。基於它之上,作不少事情會變得很輕鬆。學習

後話

其實我以爲和 AI 進行適配,不必定是朝着整合 AI 框架的方向發展。前面咱們提到 將來必然是 AI 框架倒推數據處理框架,只要讓 Spark 可以更好的爲 AI 作數據預處理,成爲事實標準,而且適配主流 AI 框架,那麼 Spark 必然會有一個新的護城河。最簡單的例子,Spark 2.3 已經支持圖片處理了,可是其實仍是蠻多問題的,是能夠作得更好的。另外能不能支持張量?總之最好的策略實際上是壓縮 AI 框架的邊界,保證 Spark 在數據處理方面的絕對壟斷地位。我在實際使用中發現,不少數據預處理,Spark 目前作起來是不方便的,非得用 AI 算法庫的函數。測試

固然,還有就是加速流的發展,而且加大這方面的宣傳和投入,肯定在數據處理第二階段依然可以保持領先優點。大數據

原文連接:

https://www.jianshu.com/p/2dc96dfc89c8

相關文章
相關標籤/搜索