AirFlow/NiFi/MLFlow/KubeFlow進展

大數據分析中,進行流程化的批處理是必不可少的。傳統的大數據處理大部分是基於關係數據庫系統,難以實現大規模擴展;主流的基於Hadoop/Spark體系整體性能較強,但使用複雜、擴展能力弱。大數據分析向Kubernnetes等容器集羣發展是大勢所趨,AirFlow、NiFi、MLFlow、KubeFlow就是能夠用於這些方向的新興開源軟件平臺,能夠充分容器集羣和DevOps、雲計算的優點,並且將傳統的大量數據處理和機器學習等先進算法可以實現有機的結合。算法

AirFlow數據流程化處理系統

AirFlow是可編程的DAG流程框架,主要經過Python執行。最新版本經過Executor機制支持Kubernetes集羣做爲執行環境,從而能夠將大量數據處理的流程在容器雲中進行遷移。數據庫

NiFi可視化數據流處理系統

經過可視化的方法編輯流程,並在線運行,支持後臺監控、任務調度、執行器擴展等能力。NiFi採用Java和HTML開發,經過Web瀏覽器訪問圖形交互界面,服務器端能夠運行於容器中。apache

MLFlow機器學習系統

MLFlow是基於Python開發的DAG數據工做流框架,主要面向機器學習,支持Spark並行環境和Kubernetes容器集羣。編程

KubeFlow機器學習系統

Kubeflow是面向機器學習的數據流批處理框架,原生支持Kubernetes集羣環境,支持多種機器學習引擎,內置JupyterHub的交互式數據分析環境。瀏覽器

JupyterHub/JupyterLab

相關文章
相關標籤/搜索