初探百度大數據分析挖掘平臺Jarvis

在人工功能時代,企業既想經過大數據分析、挖掘技術提高效率,又被大數據量分析、機器學習挖掘等相關技術門檻阻擾,須要一款數據分析挖掘產品跨越這個鴻溝。Jarvis在這個背景下應運而生。Jarvis是支撐大數據分析挖掘應用開發的工具和平臺,定位在企業開發者和大數據分析挖掘技術之間,提供可視化交互方面的支持,使得大數據分析、挖掘技術能快速轉化爲知足企業應用場景的具體產品。算法

據瞭解,Jarvis技術實施棧縱向分層、橫向分級確保可全流程解決數據分析挖掘過程當中的數據處理、計算資源、算子算法支持、環境部署等各環節問題,同時針對用戶進行功能分級、並最大限度保持可擴展,爲真正成爲一款造福數據科學家、業務開發者、數據分析師、產品經理、決策分析者等各種開發用戶的產品而努力。

圖片描述

可視化管理數據科學全流程
一個經典的數據挖掘分析應用過程包括,數據獲取、數據預期處理、特徵提取、建模開發、預測部署、投入應用。Jarvis充分調研分析開發實施人員在各環節面臨的處理場景、可能的高效、方便的工做方式,進行了抽象設計實現:
數據鏈接,支持結構化、非結構化多類型數據接入,支持私有數據接入、支持雲Bos、分佈式HDFS、關係型數據庫等等多類型數據源讀取及靈活掛載。
數據準備,提供支持文本、圖像類型的交互式的數據清洗、預處理工具,方便進行數據高效準備。
數據分析,支持PB級別的SQL交互式查詢分析、Spark處理;同時提供豐富的可視化數據探查工具,方便開發者獲取高價值有效樣本。
挖掘建模,內置了豐富的基礎算子算法供開發者高效進行建模開發;同時預置了經典的垂類行業解決方案,能夠低成本在匹配場景進行高效實施。
模型部署,生成模型可直接發佈、部署,並支持動態熱加載。提供了經常使用模型評價指標的效果監控功能供一鍵選擇監控、支持自由擴展。
流程監控,開發者進行的全工做流實現自動Track,新數據可自動觸發重跑全流程。
圖片描述數據庫

圖片描述

雲原生服務
在數據分析挖掘全流程及服務過程當中,不一樣的場景、不一樣的數據、不一樣的處理階段、不一樣的開發者對於環境的需求、對於資源的需求多種多樣,這就須要數據分析挖掘平臺的資源(包含開發環境資源)管理要能靈活接入、彈性拉伸、擴展方便,確保穩定及資源利用高效。Jarvis採用了雲原生服務架構的方式實現。
圖片描述架構

自動機器學習AutoML
策略模型研發人員大量的時間花費在選取不一樣的特徵數據、進行不一樣的算法選擇嘗試、參數調優中,最終得到一個高效的模型。AutoML理論上可經過設置自動嘗試多數據特徵、多算法、測試徹底不一樣的模型架構,而後與目標相匹配,給出最終解決問題的方案。
圖片描述機器學習

圖片描述

圖片描述

行業解決方案
同行業的不一樣企業每每存在共性的數據分析挖掘場景,例如:電力行業,用電量預測;工業物理網類,設備故障檢測、故障預測等。這些同類場景要解決的問題相似、要分析的數據相似,所以能夠抽象通用的行業解決方案在同類場景下複用、快速投入應用。對於深層次的數據挖掘開發者,一樣有大量通用的算法、算子庫能夠相互複用,提高開發效率。Jarvis從基礎算法、通用模型、垂類解決方案分層內置能力並不斷擴展集成,爲不一樣場景需求的開發者用戶提供了高效複用能力。
圖片描述分佈式

圖片描述

百度開發者大會期間,jarvis經過點石-大數據衆智平臺(dianshi.baidu.com, DataLab板塊)邀測了第一批用戶進行加強版基礎開發環境的使用(內置了豐富的算子算法庫及百度AI開放接口),受到用戶的一致好評。
圖片描述工具

敬請期待jarvis後續的全面正式發佈、邀測!學習

相關文章
相關標籤/搜索