人工智能,按照智能化程度,可分爲 5 級。第一級,識別能力,經過泛在多維感知,將高質量的數據鏈接起來。第二級,理解能力,基於可積累的行業符號體系的智能抽取技術,構建千億知識網絡的知識圖譜數據庫。第三級,分析能力,經過知識圖譜、暴力挖掘對知識進行多維度分析推理,打造決策模型。第四級,決策能力,創建明確的行動計劃,指導行動,實現智能決策。第五級,創新能力,也就是智能的終極本質。從識別感知,到理解分析,再到決策行動,循環反饋,造成 AI 閉環。相應地,須要建設感知應用基礎設施,數據中臺、AI 中臺、業務中臺,行動系統,才能實現 AI 閉環的落地,其中數據中臺、AI 中臺、業務中臺,是核心,承擔 AI 大腦的角色。算法
在技術實踐中,明略科技採起的是數據中臺、AI 中臺、業務中臺微服務架構。底層是數據中臺,包括數據接入、存儲、處理和輸出。中間層是 AI 中臺,提供模型線上部署,包括推薦服務和識別相關的各種模型,以及自動參數優化等。上層是業務中臺,經過算法統一打通,支持數據清洗、標籤、實時數據分析服務、洞察服務。sql
AI 中臺,本質上是 AI 應用全生命週期的開發和管理平臺,用於數據分析與處理、模型訓練與評估、模型應用與監控。提供統一的數據存儲系統,和基於容器的異構計算資源管理系統、機器學習庫與模型訓練實驗管理系統以及模型部署與運行監控系統,採用分佈式模型訓練,大幅提高數據和模型的性能、效果、目標。數據庫
具體而言,AI 中臺具有六大能力。第一,統一的存儲空間,支持多數據源導入。第二,Pipeline 可視化工做流管理與執行,支持數據科學家從數據建模階段開始的可視化管理,節省成本,快速體現數據科學家的價值。第三,基於容器的計算資源分配和軟件庫安裝,支持 TensorFlow、PyTorch 等各類框架。第四,支持 GPU、TPU、CPU 框架和基於異構計算的模型管理。第五,模型管理,支持新手快速上手,無需經過本身實現原始算法,只須要理解算法原理就能夠經過調參實現。第六,AI Serving,模型一鍵封裝爲 API,一鍵部署。網絡
AI 中臺,以實現業務智能爲目標,爲數據科學家團隊提供服務,加速用戶畫像、推薦系統、圖像識別、智能客服等智能應用開發。以此爲基礎快速迭代,擴大 AI 應用覆蓋面,推進 AI 技術在其餘行業領域的落地應用。架構
AI 中臺落地的技術挑戰與實現路徑app
AI 中臺在實際落地過程當中,卻存在着很多挑戰。首先,數據分散,以多種形式存儲在多個系統中,須要統一存儲。第二,流程複雜,相互依賴性強,須要統一流程。第三,存在 Spark、TensorFlow、Pytorch、Lightgbm 等多種多樣的軟件環境,須要統一協調。第四,模型訓練時間長,須要管理大量模型訓練實驗。第五,模型影響因素多,須要管理大量模型版本。第六,AI 模型難部署,須要專用軟件環境,深度學習對算力要求高,資源管理難度大,須要多方面優化性能。負載均衡
目前,國內外主流的 AI 平臺架構,都在試圖解決這些問題。框架
第一類是 BATJ、網易、小米、訊飛的開放 AI 平臺,這類 AI 平臺一般採用 Docker+Yarn 或者 Docker +K8s 架構,提供圖像、語音識別等應用能力,經過 Restful API 的方式,提供服務的使用,但數據必需要發給平臺方。BAT 之外的廠商,通常只能提供某一方面的能力,如需使用多個能力,則需使用多個平臺的產品,管理和開發的複雜度較高。AI 中臺大部分部署在客戶私有集羣、私有機房。機器學習
第二類是 Acumos AI,經過把 AI 學習中的各環節微服務化,以 MarketPlace 的方式實現發佈和共享,但文檔缺失嚴重,部署和使用不方便,上手成本高。分佈式
第三類是 MLflow,經過 Tracking、Project、Models 3 個層面的抽象,整合全部的機器學習和人工智能算法和模型,但對於全流程集成的支持尚欠缺,好比數據導入和管理,模型的部署,資源的管理等。
第四類是 OpenPAI,經過 K8s 實現雲、單機、集羣的多環境,支持多種主流框架,具有資源管理的功能,但對於全流程集成尚欠缺。傳統的集羣,數據科學家實驗室,沒有實線上突破,模型到線上部署很難實現。
明略科技從三個層次來進行 AI 平臺的架構設計。
第一層,基礎設施,以知足數據、算法模型和過程性能要求。第二層,容器集羣,以計算調度引擎爲主。第三層,由三部分構成,一是數據處理模型,二是模型訓練,涵蓋目前最流行的 Parameter Server 等模型,三是模型 Serving,知足 Model Server、Model Converter 相關的線上場景需求。
基於此,明略科技 AI 中臺主要有如下特色。
第一,數據存儲和計算任務分離,計算任務經過內部高速網絡讀寫數據,避免數據再次「搬運」。
第二,ETL 集成,拖拽式任務設計,支持定時任務和事件觸發,內建 Mysql、HDFS、Kafka 等多種數據源,Spark、Flink 等計算引擎。把已有的 MySQL、Kafka 與系統完美融合,以可視化方式看到各類統計,這個理念與數據中臺的理念一致,單獨的子系統能夠實現可視化、監控、任務、管理。
第三,支持 Notebook 交互式開發,符合數據科學家習慣,促進業務價值。可實現 Python based 交互式場景,支持 TensorFlow Pytorch 等多使流行框架,CPU、GPU 資源控制,單機集羣計算資源。這是基於原生態的 Jupyter notebook 實現,數據科學家能夠指定單機仍是集成方式,快速解決實際問題,經過交互式數據開發環境,選擇不一樣 Kernel 可鏈接到不一樣計算資源。
第四,Pipeline 的實現,Docker based 可複用,運行狀態可視化,好比,A 數據科學家用的是 Tensorflow,B 數據科學家用的是 Spark,保證兼容,每次運行結果存檔,生成 DAG 圖,快速看到邏輯和節點問題。
第五,彈性擴展的 Model Serving,基於 k8s 和微服務技術,每一個模型都部署一個微服務,同時支持 RESTFul 和 gRPC 協議訪問,自動解決了負載均衡和 FailedOver 的問題,可自動按負載動態擴縮容 AutoScale,滾動升級和 ABtest 等多版本對比環境,支持 Java、Pyhton、C++ 等多語言部署,靈活性高。
第六,語言和框架,支持 TensorFlow、PyTorch、Spark、MPI、MXNet 等框架,Python、R、Java 等語言。
第七,提供圖像識別、推薦系統、NLP 三大類別的內置模型分析。
第八,提供 AI 中臺監控,可全面監控集羣多項基礎指標以及各運行任務粒度資源使用狀況,內置集成報警功能,可實現數據實時可視化。
總之,明略科技的 AI 中臺最核心的三點優點是,可與現有數據大數據平臺無縫對接,支持異構計算和擴展框架。
AI 中臺技術實踐案例
在零售業,明略科技爲行業領先的某新零售公司打造了AI中臺,主要帶來了三方面的提高。首先,改變了探索方式和時間效率。數據科學家寫代碼一般是交互式的,原先相似拖拉式的方式沒法知足數據科學家的需求,明略科技的AI中臺使探索方式變得更加靈活,而且探索時間從15天減到了7天。第二,改變了模型發佈方式和發佈效率。原先的作法是,算法工程師寫完一套,工程師重寫一遍,而後再上線,使用AI中臺後,可快速上線同時作AB測試、滾動升級、小流量測試等,平均發佈時間也從15天大幅下降。第三,原先AB測試須要人工重度參與,且複用性差,如今則能輕鬆應對。
在銀行業,明略科技爲國內某大型國有銀行打造了基於AI中臺的從關鍵詞到知識圖譜相關的推薦系統。基於AI中臺能夠快速實現實時請求查詢,線下場景離線與AI中臺無縫切換,模型Serving與數據中臺、業務中臺無縫對接,經過管理系統實時看到策略、排序等。
在對話機器人領域,明略科技基於知識圖譜和AI中臺技術能力打造了客服機器人。雖然深度學習、神經網絡的算出的結果多是準確的,但過程沒法解釋,而知識圖譜是實體關係屬性,組成網狀結構,具備可解釋性。在構建知識圖譜時,將行業知識與客戶企業內部知識相結合,實現隱性關係的挖掘,快速解決問題。AI中臺把聊天客服機器人、算法、知識圖譜進行有機融合,確保了基於領域知識圖譜對話客服機器人的準確性和有效性。