Flink Forward Asia 2019:阿里巴巴公佈 Flink 1.10 版本預告,並宣佈開源機器學習平臺 Alink

上週四,阿里巴巴在 Flink Forward Asia 2019 大會上公佈了新版本大數據處理引擎 Apache Flink 的部分信息,並宣佈正式開源基於 Flink 研發的機器學習平臺 Alink。git

據官方介紹,新的 Flink 1.10 版本已經收納了基於 Flink 搭建的阿里巴巴內部自用的實時計算平臺 Blink 的所有功能,預計將於明年 1 月正式發佈。除了完成合並所帶來的好處以外,Flink 1.10 的特色還包括 Hive 集成兼容性提高,更好的 Python 支持,原生 Kubernetes 集成支持,以及新增多個主流機器學習算法庫等等。github

Flink Forward Asia.png

阿里巴巴從 2015 年開始基於 Flink 而創建了內部版本 Blink 平臺,長期服務於阿里巴巴內部的搜索、推薦、廣告等核心實時業務。通過三年時間的實踐與打磨,再加上 Blink 與開源版本 Flink 之間差距愈來愈大的緣由,阿里巴巴於去年 12 月在 Flink Forward China 峯會上宣佈將開源 Blink。算法

實際上,這已是 Blink 自今年 1 月正式開源尚不足 1 年時間內的第二次併入 Flink 正式版,上一次併入是 3 個月前的 Flink 1.9 版本發佈。阿里巴巴在較短的時間內投入了大量人力與資源,多位 Apache 社區項目管理委員會成員與代碼提交者貢獻了超過 150 萬行代碼。編程

Apache Flink 是一個分佈式大數據處理引擎,可對有限數據流和無限數據流進行有狀態計算,並部署在各類集羣環境中,針對各類大小的數據規模進行快速計算。框架

Apache Flink 最初源於由德國柏林工業大學、柏林洪堡大學、哈索·普拉特納研究所共同發起、合做的一個名爲「StratoSphere:雲上的信息管理」的大數據批計算研究項目,以後核心開發者從 StratoSphere 中將 Flink 分離了出來,目的是嘗試經過流式計算來進行全部的大數據計算工做。2014 年 3 月,Flink 進入 Apache 孵化器,並於同年 12 月成爲 Apache 頂級項目。至今,包括騰訊、華爲、網易、小米、滴滴、順豐等在內的大量企業均已成爲 Flink 用戶。機器學習

Flink 的核心是流計算數據處理引擎,其針對數據流的分佈式計算提供了數據分佈、通訊、容錯機制等功能,可同時支持流處理與批處理。基於流計算引擎,Flink 可提供更強的計算能力與更易用的編程接口,以便開發者建立分佈式任務。此外,Flink 還針對特定的應用領域提供了不一樣的庫,好比機器算法庫 FlinkML,可提供具備擴展性的機器學習算法以及直觀的 API 和工具。分佈式

Alink 開源.png

而在本次大會上宣佈正式開源的機器學習平臺 Alink,則不一樣於 FlinkML,它是由阿里巴巴計算平臺 PAI 團隊基於新版本的 Flink 而從新開發的通用算法庫,是 PAI 算法平臺的一部分,支持 Kafka、HDFS、HBase 等一系列開源數據存儲平臺,將來 Alink 也可能將併入 FlinkML。工具

Alink 做爲同時支持流計算與批計算的機器學習算法平臺,提供了機器學習、統計等方面的超過 200 種經常使用算法與便捷的操做框架,同時對算法的實現進行了針對性的優化,進一步提高了算法的運行效率。目前 Alink 已正式上線 GitHub,開發者將無需瞭解 Flink 就能輕鬆完成從數據處理到模型訓練、實時預測、可視化展現的全流程,或利用 Alink 處理統計分析、機器學習、實時預測、個性化推薦、異常檢測等諸多任務。學習

據瞭解,Alink 一樣也應用於阿里巴巴內部的搜索、推薦、廣告等多個核心實時業務中。在今年的「雙11」中,Alink 成功克服了超大規模實時數據訓練的壓力,單日數據處理量高達 970PB,每秒處理峯值數據超過 25 億條,最終實現 4% 的商品點擊轉化率提高。大數據

到目前爲止,阿里巴巴已在 GitHub 上開放了 283 個代碼庫,而阿里雲則開放了 278 個,阿里巴巴集團爲國內開源貢獻量最大的企業。


GitHub 相關項目地址:

通用算法平臺 Alink

SegmentFault.png

相關文章
相關標籤/搜索