開發部署時間從幾個月到幾分鐘:eBay的大規模AI平臺實踐

圖片

你是否曾經想要找一件物品,卻難以用語言來描述它?如今,有了 eBay 的現代化人工智能平臺提供的計算機視覺功能,這項技術能夠幫助你根據你點擊的照片或圖像找到物品。用戶能夠進入 eBay 應用程序,拍下他們正在尋找的東西的照片,只須要幾毫秒,平臺就會顯示出與圖像匹配的物品。用戶不只觸發了計算機視覺技術,還利用了一些先進的人工智能功能,包括深度學習、分佈式訓練和推理。該計算機視覺算法對 5 億多張圖片和 eBay 的 14 億份清單進行篩選,找到在視覺上類似的最相關的清單。算法

eBay 之因此可以實現如此有效的、大規模的、精確的人工智能,一個主要緣由是 Krylov——eBay 最早進的現代化人工智能平臺,其目標是提升 eBay 的人工智能生產率,並加速大規模人工智能模型的上市時間。安全

人工智能平臺正對全部行業的領軍企業產生了巨大的影響。像谷歌這樣的公有云提供商使用人工智能平臺提供了許多產品和服務。Facebook 的人工智能平臺名爲 FBLearner Flow,能夠對新聞源進行個性化處理,並過濾掉***性內容。在 Uber,機器學習平臺米開朗基羅(Michelangelo)提供了一種能力,讓顧客可以準確預測他們經過 UberEats 點的餐什麼時候送達。服務器

相似地,eBay 從頭開始構建了 Krylov,目標是將其做爲一個可伸縮的、多租戶的、基於雲的 人工智能平臺,以支持各類規模的人工智能用例。僅在 2019 年,eBay 的數據科學家每個月就使用 Krylov 運行數千個模型訓練試驗,這些試驗涵蓋了各類人工智能用例,如計算機視覺、天然語言處理(NLP)、銷售規劃建議、買方個性化服務、賣方價格指導、風險、信任、運輸估計等等。網絡

圖片

圖 1 eBay 的 AI 策略

從幾個月到幾分鐘架構

在 Krylov 以前,數據科學家須要幾周甚至幾個月的時間來創建一個具有生產力的模型。他們須要採購和管理基礎設施,將數據轉移到機器上,並安裝框架——有時還會遇到問題,帶來額外的生產管理費用。在大型數據集上訓練模型不能跨節點伸縮。app

如今,人工智能雲上的基礎設施能夠按需使用,數據科學家能夠訪問最新的軟件、硬件、模型和運行時,如 Notebooks、TensorFlow、PyTorch 和 H20。經過這些運行時,咱們能夠對 BERT(用於語言理解)或 ResNet(用於計算機視覺)等模型在咱們的 14 億庫存清單上進行大規模的訓練。框架

數據科學家可使用分佈式訓練在大數據集上訓練模型。他們能夠同時進行試驗和超參數調整,記錄和可視化試驗,並部署最好的模型試驗。例如,咱們的人工智能研究人員使用 Krylov 來訓練神經機器翻譯模型、用於推薦系統的深度和廣度模型,以及用於加強圖像搜索的計算機視覺模型。這是提升模型精度和縮短 eBay 機器翻譯技術上市時間的關鍵。機器翻譯技術對實現跨境貿易貢獻巨大,佔 eBay 國際收入的 59%。機器學習

Krylov 容許咱們的人工智能團隊最大限度地利用 eBay 擁有的海量數據,包括批量數據和實時數據。若是將數據看做是人工智能和機器學習的燃料,那麼 Krylov 就是由這種燃料驅動的複雜的交通工具。分佈式

這是一種快速發展的交通工具。現在,數據科學家能夠在不到一分鐘的時間內,經過流行的軟件框架(TensorFlow、Scikit Learn、數學庫、Jupyter Notebooks 等)在本身選擇的計算配置(GPU、高內存多核心)上構建一個 AI 工做空間。之前,這個過程可能須要幾天。ide

數據科學家還可使用 Python、Java 或 Scala 接口運行自動化 AI 工做流(管道),以試驗各類方法(超參數),並記錄他們的試驗及比較試驗的輸出。在大型數據集和模型上進行超參數調優和運行分佈式訓練的能力顯著提升了模型的準確性。

爲了更好地管理系統中傳輸的大量數據,eBay 設計並構建了本身的 專用服務器。新的服務器可讓 eBay 的數據科學家和工程師加速開發新功能,將開發時間從幾周減小到幾個小時。

在業務影響方面,部署時間有巨大的改善。eBay 如今能夠將模型訓練自動化,並將模型部署到個性化或通用推理平臺上,只需幾天,而之前須要幾個月。這致使了一些重要功能的改進,好比 圖像搜索,它容許購物者經過上傳類似商品的圖片來瀏覽他們想要的商品。

創建統一的人工智能平臺團隊

Krylov 是高度創新的,它的開發方式也是如此。

eBay 的統一平臺須要跨不一樣的用例集,好比計算機視覺、天然語言處理(NLP)和推薦系統。所以,開發人員和數據科學家有各類各樣的需求。這是一個爲期多年的平臺轉型。實現 Krylov 是一項打破各類豎井並跨職能和地理區域開發和執行統一願景的實踐。

爲了領導該項目,咱們組建了統一人工智能計劃核心團隊(ICT)。ICT 包括來自 AI 平臺團隊的表明(該團隊是服務的提供者)、平臺的全部者和構建者。此外,人工智能平臺還依賴於硬件、計算、網絡、存儲和數據服務。

ICT 的第三個組成部分是 AI 領域團隊,即平臺的內部客戶,例如廣告、計算機視覺、NLP、風險、信任和營銷等方面的 AI 研究和工程。對於平常的 AI 生命週期管理,這些人工智能團隊已經從定義、實現和採用這個平臺獲益。

這些專家一塊兒爲 eBay 建立了一個統一的 AI 願景,包括平臺的戰略、路線圖和關鍵原則。這是一個實踐過程。在不一樣的地方,來自領域團隊的研究人員和工程師會之內部開源的方式參與到平臺某些部分的構建。由於這些工程師和研究人員更接近領域問題(AI 生命週期),或者在過去已經爲他們的特定需求構建了框架 / 平臺,因此他們可以提供關鍵的輸入。在某些狀況下,有些框架和平臺被歸入了「統一 AI 平臺」,由於它們很好地解決了一個特定的問題,並有助於加速平臺向更普遍的 eBay AI 社區的發展。

此外,咱們還設立了一個 eBay 機器學習(ML)工程獎學金項目,任何在 eBay 的工程師均可以加入到人工智能平臺團隊中,相似於一個實習項目,幫助構建產品待辦列表中的平臺特性。這個獎學金項目的目的是讓 eBay 工程師熟悉 ML 的概念和技術。參與者會得到來自資深領域專家的關於 ML 工程概念的指導。

內部開源模型和 ML 工程獎學金項目不只有助於代碼貢獻,並且也在咱們擴展咱們的科學家和工程師的技能集時,做爲平臺開發的反饋機制。

瞭解痛點

在構建 Krylov 的探索階段,爲了更好地理解構建 eBay 人工智能的難點和挑戰,跨不一樣地理位置的 eBay 全球團隊協同工做。這包括理解需求和但願;對人工智能研究人員和開發人員的平常生活表示理解和感激;並研究行業中現有的方法。

分階段構建、採用和轉換人工智能的多年時間裏,須要:

  • 經過強大的計算能力(GPU、高內存多核心)輕鬆、安全、高效地訪問數據的人工智能訓練集羣;
  • 訓練平臺:可自動訓練工做流及交互式工做空間、SDK、客戶端(Python、Java、Scala、REST);
  • AI 模型生命週期管理:模型試驗管理、模型管理服務、部署服務、AI Hub(基於 Web 的 UI)
  • 模型服務平臺和反饋循環:將 AI 模型做爲服務綁定到試驗框架和監控系統(操做以及模型性能)實現部署;
  • 用於建模、部署和推斷由數據發現、準備、特性存儲和服務以及反饋循環組成的生命週期的數據生命週期抽象;
  • 此外,該平臺必須創建與幾個關鍵的原則,以解決 eBay 不一樣數據科學家和工程團隊的人工智能用例和操做模式。咱們確立的主要原則有:
    • 支持異構軟件框架——Tensorflow、PyTorch、Cafe、Notebook 以及任何選用的框架;
    • 異構硬件架構——支持 GPU、高內存 CPU;
    • 支持大規模;
    • 以開源的方式使用開源技術。

圖片

圖 2 使用 AI 平臺進行端到端的 AI 模型生命週期管理

圖片

圖 3 AI Hub(用於模型端到端生命週期管理的 UI)顯示了在 AI 項目中與合做者進行的模型訓練試驗

圖片

圖 4 AI Hub 顯示了一個 AI 項目中兩個模型訓練試驗之間的指標對比

圖片

圖 5 AI Hub 顯示了一個 ML 模型訓練工做流(DAG)的可視化,在這裏用戶能夠看到狀態以及工做流中每一個任務的更多細節。 用戶還能夠附加日誌和資產、指定配置和查看部署狀態。

平臺建成後,咱們將爲 AI ICT 團隊提供預覽、Alpha 和 Beta 訪問,讓他們提早訪問並測試平臺。這種迭代式的、具備統一願景和執行力的協做幫助 eBay AI 社區爲本身構建了一個統一的平臺。

雖然早期的結果取得了成功,但這並不意味着咱們已經完成了所有工做。人工智能是一場沒有終點的進化之旅。展望將來,咱們將經過 eBay 的人工智能託管市場繼續創新之路,咱們也會繼續分享咱們的發現。

相關文章
相關標籤/搜索