來源|AIT News Desk
編譯|CDA數據分析師
Dotscience是DevOps機器學習(ML)的先驅,憑藉其用於協做,端到端ML數據和模型管理的平臺而脫穎而出。經過爲團隊提供協做跟蹤運行的獨特能力,培訓AI模型時使用的數據,代碼和參數記錄Dotscience爲包括金融科技,自動駕駛汽車,醫療保健和諮詢在內的行業的ML和數據科學團隊受權,以實現可重複性,問責制,協做跨AI模型生命週期的持續交付。Dotscience平臺如今能夠做爲SaaS或本地提供,並在8月份的亞馬遜網絡服務(AWS)市場上提供。安全
「人工智能開發的現狀很像20世紀90年代的軟件開發。在稱爲DevOps的運動以前,版本控制,持續集成和持續交付等現代最佳實踐遠沒有那麼廣泛,軟件須要六個月才能發貨是正常的。如今,軟件只需幾分鐘便可完成,「 Dotscience創始人兼首席執行官Luke Marsden表示。「在Dotscience,咱們正在應用相同的協做,控制和持續交付DevOps的原則到AI,以簡化,加速和控制AI開發。」網絡
數據科學和機器學習團隊一般面臨衆多問題,這些問題使ML項目更有可能失敗併爲業務創造財務,聲譽或法律風險。這些包括浪費時間,協做困難,手動跟蹤數據時出錯,無可重複性或來源,缺少自動化測試,手動部署模型,不受監控的模型以及丟失正在運行的內容以及它來自哪裏致使「雪花部署」。框架
根據德勤的「企業人工智能情況,第2版」,大多數受訪者表示「實施,整合到角色和功能,以及衡量和證實人工智能解決方案的商業價值是人工智能計劃的最大挑戰。」根據Dotscience的「 人工智能應用開發和運營情況2019 」市場研究結果今天發佈的調查結果顯示,受訪者在AI工做負載中遇到的三大挑戰是重複工做(33.2%),在團隊成員離職後重寫模型(27.8%)而且難以證實價值(27%)。該報告評估了企業如何在今天部署AI,並在構建,部署和迭代AI時調查問責制和協做的需求。機器學習
「數據科學家和ML工程師可能甚至都沒有意識到他們已經存在的問題,由於他們習慣於使用破碎的流程,而且不瞭解能夠更好地完成ML的解決方案,」Marsden解釋道。「解決這些問題將帶來更高效,更有效的AI團隊以及更好,更安全的ML模型。」工具
「若是你將機器學習應用程序投入生產,再現性就變得很是重要,」 人工智能和DevOps首席分析師James Kobielus表示,他們使用SiliconANGLE的Wikibon團隊。「Dotscience可以跟蹤人工智能培訓,保持完整的審計跟蹤,並提供對機器學習應用程序來源的全面可見性,使其很是適合這種不斷增加的企業需求。一樣重要的是,Dotscience確保跨混合雲平臺的可重複性的能力確保了當今企業AI環境中複雜的DevOps工具鏈的可重複性。「學習
Dotscience提供了一種工具,經過受權數據科學家和ML工程師以他們熟悉的方式工做來管理完整的AI生命週期。數據科學和ML團隊能夠利用易於使用的平臺,並提供一個單獨的地方來協做,開發,測試,監控和交付他們的ML項目。開發工具
「實際上,與市場上的其餘產品不一樣,這意味着團隊能夠繼續使用相同的開發工具,ML框架,語言,數據源和計算,而不是被迫進入有圍牆的花園,這可能致使供應商鎖定和陡峭學習曲線,「 Dotscience產品和營銷副總裁Mark Coleman說。「因爲Dotscience會跟蹤並打包進入數據工程和模型建立過程的每次運行,所以用戶能夠複製彼此的工做,輕鬆協做並根據須要進行跟蹤。」測試
Dotscience爲數據科學和ML團隊提供如下主要優點:雲計算
無縫靈活性和集成均來自一個平臺: Dotscience用戶能夠輕鬆地將任何計算鏈接到平臺,不管是他們本身的筆記本電腦,基於雲的VM仍是本地裸機。在用戶訓練模型後,Dotscience與持續集成和監控工具集成,以便他們能夠部署並監控生產中的模型,將全部相關信息保存在一個位置。人工智能
•最佳的團隊生產力:經過提供自動化的ML知識庫來消除孤島,Dotscience消除了「關鍵人物風險」,使任何數據科學家或ML工程師均可以輕鬆地從另外一我的那裏找到一個在當今競爭中特別重要的屬性招聘景觀。Dotscience不只容許團隊無縫協做,還能夠經過跟蹤模型開發階段中每一個元素的每一個版原本發現之前的工做並確切瞭解它是如何構建的。
•靈活地訪問ML開發環境的計算,混合雲可移植性:團隊成員能夠開始使用他們的筆記本電腦,而後將他們的AI工做負載轉移到更大的雲計算機或裸機GPU平臺,當他們須要額外的電源時,全部這些均可以無縫地完成,而無需建立支持請求。重現開發環境所需的整個代碼,數據,環境和超參數包以這樣的方式捆綁在一塊兒,即從一個雲移動到另外一個雲或在本地是無縫的。
•可以處理來自任何來源的數據:Dotscience能夠處理直接存儲在Dotscience中的平面文件,遠程對象存儲中的數據(即S3或S3兼容,Azure或GCS)以及來自SQL,NoSQL和Spark數據湖的數據。這種靈活性容許數據科學和ML團隊當即開始使用已經使用的數據源。Dotscience不強制攝取全部數據; 在給定兼容的對象存儲庫的狀況下,它能夠跟蹤已存在的數據的來源。
•容許AI和數據科學團隊使用他們關心的工具,同時消除對生產力不重要的障礙:使用Dotscience的跟蹤工做流程,數據科學家和ML工程師可使用開源工具進行他們熟悉的模型培訓愛,如PyTorch,Keras和TensorFlow。他們能夠在應用程序中原生使用Jupyter筆記本,或者選擇在命令行上工做,使他們可以使用他們選擇的任何IDE。
•保證遵照當前和將來的法規:ML模型用於經過設計作出決策,但若是作出的決策不正確,則可能致使嚴重的財務,聲譽和法律風險。Dotscience既能夠監控ML模型,也能夠及早發現問題,還能夠在法律上重現發生的任何問題,以便快速解決這些問題,並能夠自信地進行部署。
Dotscience提供端到端的ML生命週期管理,無需強制用戶更改其工做實踐,此方法也擴展到安裝選項。 客戶能夠選擇部署託管SaaS並自帶計算,或者手動安裝徹底私有版本的Dotscience,也能夠經過AWS Marketplace中的Dotscience安裝程序安裝,該安裝程序將於8月上市。Microsoft Azure和Google Cloud Platform的安裝程序也將很快推出。這種靈活性意味着普遍的用戶羣能夠訪問集成的ML平臺,爲數據科學家提供統一的版本控制和協做。
「ML的世界能夠從過去10年中爲處理軟件工程生命週期而開發的全部最佳實踐中學到不少東西。Dotscience有可能將一些艱苦學習的課程帶入ML世界,而不會迫使數據科學家和研究人員徹底放棄他們選擇的工具,如Jupyter Notebooks。這是一個大膽的主張,有可能產生巨大影響。「
「在工業規模上合做和維護ML項目的流程和工具尚不像傳統軟件項目那樣成熟。ML工做流程帶來了一些額外的挑戰,這些挑戰並不徹底適合軟件DevOps流程。我很高興與Dotscience合做,在咱們即將開展的項目中應對這些挑戰,由於他們積極致力於協做的結構化和集中化,以便擴展到更大的團隊和項目規模。「
「Dotscience產品在確保機器學習模型的數據來源方面填補了一個關鍵性的空白。經過提供數據源做爲服務,Dotscience能夠在不下降數據科學團隊速度的狀況下跟蹤工做,並提供對數據完整性以及確保關鍵業務利益相關者可信度所需的流程的高度可視性。