專爲Kubeflow打造的KUDO企業級機器學習平臺


專爲Kubeflow打造的KUDO企業級機器學習平臺是一個專爲安全性、擴展和速度而構建的端到端機器學習平臺,該平臺容許企業使用最佳的開源技術在共享資源的基礎上開發和部署機器學習模型。html


活動預告web

D2iQ雲原生夏令營第四講【乘「新基建」東風,構建自主可控的企業級數字化IT架構】將於明天下午2:00開講。不管您是技術人員仍是決策者,全面瞭解新一代技術核心與生態發展,是實現數字化轉型的前提。掃描文末二維碼馬上報名。安全



機器學習能夠說是當今企業業務的命脈之一。沒有它,您的數據中心只是一個硬盤的博物館。雖然機器學習能夠推進數據驅動型業務的發展,但它須要專業知識和複雜的技術組件才能使其正常運行。D2iQ的Kubeflow for KUDO,是一個旨在幫助您在短期內從模型過渡到生產過程的企業平臺。服務器


預計在將來五年內,企業在自身數據中心中存儲的數據將多達700 億TB。若是將全部數據存儲在1 TB容量5.5毫米(0.22英寸)的超薄硬盤上,其堆棧能夠直達月球。若是把存儲在公有云上的數據也包括在內,這個堆棧不只能夠直達月球,還能繞月球轉一圈後再返回來,甚至幾乎能夠再進行一次環球旅行。隨着數據量呈指數級增加,機器學習再也不是一種選擇,而是一種必要。微信


不幸的是,許多企業在從單臺機器上的模型過渡到可擴展的部署中都遇到了挑戰。只有不到15%的數據科學計劃可以投入生產,而對於那些投入生產的計劃來講,將模型轉化爲生產級解決方案可能要花費數月的時間。網絡


在過去十年中,只有大型科技公司纔會創建大數據時代的端到端機器學習(ML) 平臺。這並不意味着這種基礎設施對大多數公司來講是高不可攀的。事實上,這也是爲何咱們要在D2iQ創建KUDO for Kubeflow的緣由:讓全部企業都能使用世界級的機器學習基礎設施。架構


咱們的假設app


在深刻了解KUDO for Kubeflow如何幫助企業進行機器學習以前,讓咱們先回顧一下指導咱們的假設:負載均衡


  1. 在部署和驗證第一個模型以前,企業看不到機器學習投入的任何回報。框架

  2. 除非對模型進行按期和自動的二次或屢次培訓以及從新部署,不然企業沒法得到機器學習投入的可持續回報。

  3. 企業要求模型具備可解釋性、可靠性、穩定性和公平性。

  4. 企業不能經過僱傭和外包,將昂貴的硬件用於單個用戶的機器來無限期地擴展機器學習計劃。

  5. 企業根據業務需求而非軟件侷限來選擇基礎設施(雲、本地、混合、邊緣)。

  6. 企業愈來愈依賴開源技術進行機器學習。


 從這些假設中咱們能推斷出什麼結論?


咱們的承諾


工做流自動化

做爲一個研究機構,數據科學是一個成本中心:一次性的精闢看法可能會帶來回報,但它們不多能提供連續的收入流,且每每並不常見。自動化部署對於機器學習投入的持續正收益相當重要。


快速部署

因爲咱們的成功與客戶的成功是一脈相連的,所以咱們的目標是儘量簡單、快速和可靠地部署機器學習模型。


模型管理

基於機器學習的解決方案的合規性、規則和責任意味着人們愈來愈關注模型的公平性、可靠性、穩定性和可解釋性。對於在線媒體服務商來講,推送糟糕的內容當然難以接受,但模型的最壞狀況遠比關鍵系統安全(如汽車、航空航天、醫療設備、發電廠)、許多工業用例(如化學品、食品加工、製造、採礦)甚至金融服務中的平均性能要重要得多,由於錯誤的模式可能會對人們的生活產生負面影響。所以,使用工具來從新運行實驗或放大細節是很重要的。


彈性基礎設施

爲了擴展機器學習計劃,組織必須可以共享公共基礎設施(例如,計算和存儲)、提升生產力和協做,並儘量地實現自動化。這不只意味着基礎設施必須可以動態地向上/向下擴展,還意味着基礎設施必須支持業務,而不是給數據科學家和工程師帶來負擔。


支持任意基礎設施

企業決定本身的基礎設施,這聽起來彷佛是理所固然的,但許多機器學習工具只能在特定的硬件或單一的公有云上良好運行。咱們不相信「在這裏起做用,在那裏不起做用」的技術。咱們認爲支持air gap數據中心甚至邊緣的用例是很重要的。您能夠將KUDO for Kubeflow部署沒有公共互聯網鏈接的安全數據中心,或者在部署鏈接緩慢、不穩定的偏遠移動研究站,咱們的目標是讓它在任何地方都能正常運做。


簡化目標

指望數據科學家成爲統計建模、機器學習框架、軟件工程、數據存儲解決方案、容器化、微服務、網絡、編排、站點可靠性工程師(SRE)等方面的專家是不現實的。這些均可以經過基礎設施平臺實現。專家們仍然須要調整配置,但典型的機器學習用戶則無需瞭解負載平衡器、運行情況檢查、IPv六、集羣拓撲等。


KUDO for Kubeflow

KUDO for Kubeflow是一個專爲安全性、擴展和速度而構建的端到端機器學習平臺,該平臺容許企業使用最佳的開源技術在共享資源的基礎上開發和部署機器學習模型。KUDO for Kubeflow由Kubeflow提供支持,Kubeflow自己是一個運行在Kubernetes之上的機器學習工具包。KUDO for Kubeflow是Kubernetes用於Kubeflow的通用聲明性operator,這意味着KUDO在內部被用來鏈接20多個Kubernetes operator。


要理解的內容不少,須要咱們把它拆分開來並回答幾個相關的問題。


端到端機器學習平臺

首先,當咱們說端到端時,是指數據工程、數據科學和機器學習、運維和安全性。安全性由負責身份驗證、受權和端到端加密的Dex和Istio處理。KUDO for Kubeflow支持多租戶:基於角色的細粒度訪問控制能夠與現有的外部身份提供程序集成,例如LDAP和OAuth。


其次,KUDO for Kubeflow是一個機器學習平臺。它有許多面向機器學習模型開發和部署的組件。儘管它附帶了流行的軟件包,如Seaborn、statsmodels、SciPy、Keras、scikit-learn、PySpark(用於ETL和ML)和NLP庫:gensim、NLTK和spaCy,但KUDO for Kubeflow重點關注的不是統計分析或分析。雖然咱們也經過Scala和Apache Toree支持Spark,但選擇的語言倒是Python。


Notebook即服務

雖然在一臺筆記本電腦上設置notebook很容易,可是一旦涉及到自定義庫,好比在配置硬件時處理驅動程序或對可移植性、安全性配置文件、服務賬戶、憑據等有要求時,就會變得棘手起來。簡而言之,在企業環境中管理notebook並非那麼容易。


咱們的Jupyter notebook包含了全部內容,可以讓數據科學家從模型過渡到全面部署,而且全部超參數的調整僅需數分鐘,而非數月。大量的教程展現瞭如何使用KUDO for Kubeflow的每一個組件——若是您不想離開Jupyter,就沒必要離開Jupyter!


TensorFlow、Pythorch和MXNet都有通過全面測試、預配置的鏡像。全部的notebook鏡像都包括Spark和Horovod,用於分佈式培訓和實時構建數據pipeline。每一個鏡像都具備CPU和GPU風格,全部必要的驅動程序都獲得正確配置。


內置的最佳實踐

KUDO for Kubeflow提供了一個用於開發和部署機器學習模型的全動能平臺,打破了生產力的障礙。在脆弱的環境中,沒有必要用昂貴的gpu在我的筆記本電腦上運行模型。在不犧牲安全性的前提下,容許數據科學家在共享資源的基礎上對模型進行大規模的訓練和優化,從而告別在現實數據集上失敗的模型。


輕鬆的機器學習DevOps

DevOps技能的缺少是企業採用機器學習的一個重要障礙。切換、代碼重寫和延遲都不利於支持快速迭代的協做文化。可是,若是沒有工具和專業知識在生產中大規模運行模型,數據科學家能作些什麼呢?


KUDO for Kubeflow爲數據科學家提供了他們已經熟悉的工具,讓他們徹底掌控機器學習生命週期。經過預先配置的負載均衡器、開箱即用的Canary部署和已設置的監控,將模型部署爲自動擴展的Web服務。


工具選擇與評估

Kubeflow的開源版本有50多個組件、集成和相關計劃。在它下面運行着擁有龐大的生態系統和陡峭的學習曲線的Kubernetes。許多這些庫和框架都提供相似的功能,這使得數據科學家的生活更加混亂。如何從不熟悉的一組工具中進行選擇?


咱們確保KUDO for Kubeflow中包含最佳的雲原生工具,而且僅提供那些對企業數據科學用例有意義的獨特功能的工具。咱們研究和審查備選方案,而後根據一系列核心標準對每種方案進行評估,包括:

  • 能力與需求

  • 代碼庫健康

  • 社區活動和支持

  • 公司或機構支持

  • 項目成熟度

  • 路線圖和願景

  • 行業內的總體知名度和採用率


咱們按期在大型集羣上運行混合工做負載,以模擬真實的企業環境。這樣,就保證了整個堆棧的工做和擴展。KUDO for Kubeflow的每個版本都是「浸泡式」的,也就是說,它們在必定的時間內以高負載運行,以驗證系統的性能和穩定性。


咱們的教程展現瞭如何使用每一個包含的組件,這樣您就沒必要處處尋找文檔,也沒必要在反覆試驗和錯誤中浪費寶貴的時間。


更重要的是,一個DIY機器學習平臺有這麼多的移動部件,很容易讓您的企業面臨沒必要要的安全風險。2020年6月,ZDNet報告了對未能實現適當安全協議的DIY Kubeflow集羣的普遍攻擊。得益於咱們的企業級安全性,KUDO for Kubeflow從設計上就能夠避免此類漏洞,而且只在嚴格的身份驗證和受權機制下進行部署。


Kubeflow與Kubernetes

同理,咱們選擇了Kubeflow,它是Kubernetes上機器學習的開源標準。那麼,咱們爲何要選擇Kubernetes?


Kubernetes是開源容器編排器。它提供了底層基礎設施的抽象,很是適合機器學習,只有5%的生產機器學習系統包含與模型相關的實際代碼。機器學習系統還須要notebook服務器、用於沿襲性和再現性的元數據存儲、設施分佈式培訓和並行超參數調整,以及部署所需的一切,如模型存儲、web服務器、日誌記錄和監控等等。


對於Kubernetes來講,全部這些「工做負載」都打包在pod上運行的容器中。若是請求數量增長,Kubernetes會增長pod的響應數量。若是一個pod崩潰了,另外一個pod救護啓動起來。存儲能夠做爲卷掛載到pod上。一樣,機密信息的管理獨立於工做負載,而無需重建容器鏡像。許多容器能夠單獨在同一硬件上運行,所以企業能夠最佳利用底層基礎設施,從而下降成本。


咱們用於Kafka和Cassandra(由KUDO打造)的開源Kubernetes運算符能夠被添加到Kubernetes集羣中,以得到完整的數據和機器學習平臺:Cassandra、Kafka、Spark、TensorFlow、PyTorch、MXNet以及在多個節點上分發培訓,並行調整超參數以及部署可自動擴展的模型所需的一切。


開源

整個KUDO for Kubeflow平臺是以由 D2iQ 策劃、集成和簡化的最佳開源技術爲基礎的。咱們對開源技術的承諾意味着咱們尊重 API。若是您只想使用標準的SDK,您能夠放心使用而不受任何限制,也無需供應商鎖定。


Konvoy上運行的KUDO for Kubeflow的架構


生產運維準備就緒

KUDO for Kubeflow使企業能夠當即看到機器學習的好處。爲何要花幾天時間處理安裝、設置和配置?咱們提供Kommander的雙擊安裝——是的,咱們數過了。


D2iQ徹底支持KUDO for Kubeflow以及任何附加KUDO operator(例如Cassandra和Kafka)。這意味着企業能夠享受最新的特性和新穎的功能,而無需停機。


接下來是什麼?

對於下一個版本,咱們將繼續減小從模型到生產所需的時間,方法是經過添加用於習慣分佈式執行的附加operator來改善用戶體驗,添加數據和模型管理以及端到端跟蹤和監控的功能。


同時,註冊D2iQ的KUDO for Kubeflow,並準備好隨時啓用。


歡迎點擊「閱讀原文」瞭解更多KUDO for Kubeflow。




D2iQ雲原生夏令營

初階主題:解構IT現代化, 加速數字化轉型落地


D2iQ爲期3個月的雲原生線上培訓課程報名正式啓動!


若是您還在被花樣百出的技術概念所迷惑,不清楚如何開啓數字化轉型,請您掃碼報名您感興趣的課程。



W E B I N A R

D2iQ雲原生夏令營

7月22日(週三) 下午14:00-15:00


內容大綱

  • 什麼是新基建

  • 新基建,大機遇

  • 企業數字化轉型的雷區

  • 5G 可以帶來什麼

  • AI 有效發掘數據的價值

  • 數據驅動急需新型IT模式

  • 跨雲平臺建設是必需品

  • 數字化轉型,生態是關鍵




更多精彩課程,敬請期待!


驚喜禮品

每期課程的第二、第20、第200個報名觀衆,咱們將爲您送上神祕大禮包!


每期課程結束後,填寫調查問卷,便可獲取D2iQ定製筆記本。


定製筆記本


參與分享結束後的Q&A問答環節,便可得到D2iQ定製T-shirt。


定製T-shirt


雲原生夏令營回顧和課件下載



W E B I N A R

D2iQ雲原生夏令營


從0到1,理清現代IT技術脈絡

2020.07.01


內容大綱

  • 解讀IT技術演變,發展路徑

  • 大型機,X86,虛擬化,容器化和雲原生

  • 業務驅動,技術動力。如何理解技術演進趨勢?

  • 如何尋找適合本身的技術之路?

  • 從「零」開始技術選型

  • 如何理解開源和IT生態對業務的影響?

  • 現代IT其實沒那麼難


視頻回放


課件下載

微信公衆號後臺對話框回覆關鍵詞「0701」,便可獲取課件下載連接。






W E B I N A R

D2iQ雲原生夏令營


被迫轉型仍是主動革新?快速掌握新一代信息技術核心

2020.07.08


內容大綱

  • 從被動到主動:新一代信息技術主要特色

  • 從被動到主動:利用IT推進企業業務轉型與創新

  • 從被動到主動:創新業務的快速發展對IT的推進

  • 傳統IT架構的解決方案 - 業務技術架構

  • 傳統IT架構的解決方案 - 企業數據

  • 現代IT架構的解決方案 - 業務技術架構

  • 現代IT架構的解決方案 - 企業數據

  • 現代IT能夠很簡單


視頻回放


課件下載

微信公衆號後臺對話框回覆關鍵詞「0708」,便可獲取課件下載連接。






W E B I N A R

D2iQ雲原生夏令營


雲原生生態體系解析

2020.07.15


內容大綱

  • 什麼是雲原生

  • 雲原生髮展,過去,如今和將來

  • 雲原生與雲計算的那些事

     1)雲原生IaaS能力

     2)雲原生PaaS能力

     3)雲原生對SaaS的影響

  • 雲原生專項解決方案

    1)數據技術解決方案

    2)DevOps與微服務解決方案

    3)人工智能解決方案


視頻回放


課件下載

微信公衆號後臺對話框回覆關鍵詞「0715」,便可獲取課件下載連接。





往期精彩文章





關於D2iQ

D2iQ(原Mesosphere)是世界領先的企業級雲平臺供應商,助力企業實現開源和雲原生創新,交付智能化企業級生產運營體驗。D2iQ是Mesos早期開發和企業級部署的頂級專家,也是企業和網絡規模環境中先進分佈式計算需求的領導權威,在大規模分佈式計算方面擁有12年的豐富經驗,是全球惟一一家同時提供Mesos和Kubernetes的總體解決方案的公司。D2iQ經過企業級的技術、培訓和專業服務,爲企業領航並加速雲原生轉型落地。


D2iQ總部位於美國舊金山,在中國和歐洲設有分公司。目前,D2iQ已完成D輪融資,投資者包括Andreessen Horowitz、HPE、Khosla Ventures、Koch Disruptive Technologies、微軟和T. Rowe Price Associates。D2iQ已爲多家美國《財富》 50強、中國聯通、三一重工、一汽集團等全球知名企業提供雲原生創新解決方案。



點擊「閱讀原文」瞭解更多KUDO for Kubeflow

本文分享自微信公衆號 - D2iQ(d2iq_apac)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。

相關文章
相關標籤/搜索