AutoAI:人與機器更好地結合在一塊兒

做者 | Susan Malaika
編譯 | CDA數據分析師

瞭解AutoAI如何實現數據準備,模型開發,功能工程和超參數優化的自動化。算法

汽車人工智能的動力

近年來,數據驅動的決策已成爲企業成功的關鍵。使用技術進行數據驅動的實踐有不少好處,包括優化生產和製造,減小客戶流失,減小數據冗餘,增長利潤和創造競爭優點。所以,隨着組織採用以數據爲依據的決策方法,數據科學已變得流行起來。數據科學家須要普遍的技能,包括數學和統計,機器學習和人工智能(AI),數據庫和雲計算以及數據可視化。可是,很難招募到足夠的數據科學家,尤爲是具備足夠領域知識的專家,例如銀行,醫療保健,人力資源,製造業和電信公司,對於要執行的任務和要作出的決定的崗位每每是人手不夠的。與此同時,數據科學正日益成爲一種素養,許多工做角色(包括員工沒有很強的編碼技能的角色)都須要瞭解數據科學技術。數據庫

所以,在與開發新工具以提升數據科學家工做效率的同時,也出現了一些技術開發,這些開發的重點是建立軟件,使數據科學工做流程中的任務實現自動化,例如Google的AutoML,H2O,DataRobot,以及Auto-sklearn和TPOT等開源庫。其中許多系統都基於scikit-learn Python機器學習庫。它們是人工智能的例子,由於人工智能技術正被用於構建人工智能解決方案。$IBM^®$爲人工智能技術生產了最早進的人工智能,並以AutoAI的形式將其整合到其產品組合中。小程序

什麼是AutoAI?

AutoAI是IBM Cloud Pak for Data的標準配置,可在混合多雲環境中使用和擴展。AutoAI自動執行數據準備,模型開發,特徵工程和超參數優化。AutoAI AI生命週期管理在入門和探索要問的問題時提供了很大的幫助。而後,它支持後續實驗,模型修改和調整步驟。經過IBM Watson™Studio,也能夠在不使用Cloud Pak for Data的狀況下使用AutoAI。網絡

AutoAI是人工智能一個使人興奮的例子。AutoAI工具會自動分析您的數據並生成針對預測建模問題定製的候選模型方案。隨着AutoAI算法瞭解有關您的數據集的更多信息,會發現最適合您的問題的數據轉換,評估器算法和參數設置,這些模型方案會隨着時間的推移而建立。結果會顯示在一個排行榜上,顯示自動生成的模型方案,並根據問題優化目標進行排序,從而鼓勵您進行進一步的實驗。架構

更好的結合:使用AutoAI提出更好的問題

數據科學一般涉及提出更好的問題,例如,肯定適當的屬性,經過探索這些屬性是預測結果。這意味着須要構建許多不一樣的模型,而且須要選擇不一樣的特徵並應用不一樣的超參數去優化模型。AutoAI中的選項能夠經過加快人工智能流程或提供人員參與點來探索更好的問題。框架

整個AutoAI流程可在數分鐘內自動完成(取決於數據量和其餘考慮因素),而無需人工干預,建立出基礎解決方案並使之適合初學者。然而,這個領域的專家能夠輕鬆地與AutoAI進行交互,來將他們的知識整合到自動化方案中,以改進生成的模型並根據其特定需求進行定製。機器學習

專家能夠在AutoAI流程中手動指定他們本身的偏好以使其符合該領域的知識要求,下面是幾個可供選擇的人機交互的點的示例:工具

  • 數據準備–拆分數據以使用子集進行訓練和測試,填充缺失值
  • 先進的數據提煉–指定數據子集以節省資源和時間,並加入多個數據源
  • 特徵工程–應用某些現成的特徵轉換,經過多個特徵的交互來建立新特徵
  • 神經網絡搜索–採用最新學術出版物中的特定架構
  • AutoAI管道優化–選擇某些現成的算法,或插入現有算法
  • 超參數優化(HPO)–開啓或關閉HPO,或選擇在自動功能設計步驟以後每次運行HPO;定義某些超參數的搜索空間
  • 一鍵式部署–在IBM Cloud或其餘雲基礎架構上選擇目標部署環境
  • 可解釋性和消除誤差-藉助AI Fairness 360來檢測和緩解數據,算法或訓練中的誤差
  • AI生命週期管理–實時監控部署後的績效並經過一鍵式強化學習來改善模型績效

攜手共進:更快完成AI流程

有人聲稱,由人工智能構建的人工智能比人類更出色。Dakuo Wang博士及其團隊最近進行的一項定性研究有許多數據科學家參與。一些參與者被要求使用IBM AutoAI構建模型。其餘參與者在Jupyter Notebook環境中使用Python庫操做完成相同的任務。該研究代表,與AutoAI一塊兒工做的數據科學家能夠顯著更好地構建模型(ROC- AUC得分爲0.92對0.90),更快(4.4分鐘對15分鐘),人爲錯誤更少(100%對46.7%的參與者在指定的時間內成功完成了建模任務)。這項研究還揭示了數據科學家與AutoAI系統的互動的態度, 受訪者認爲,數據科學家與自動化AI系統之間存在協做關係,而不是競爭關係。學習

AutoAI的設計目的是在加快實驗過程的同時,融入人類的反饋並加強數據科學實踐。這使得沒有較強編碼技能的我的能夠探索不一樣的選項,肯定更好的問題,選擇最合適的模型,而後將模型轉移到項目部署中。測試

AutoAI的儀表板促進了人機交互,而不是取代人機交互,從而使數據科學家和領域專家可以作出明智的選擇併爲模型建立作出貢獻。在IBM AutoAI系統的如下圖形界面中,您能夠看到如何構建八個模型(頂部可視化)以及根據所選度量(ROC-AUC)對模型進行排名的排行榜(底部列表)。在數十種算法中,AutoAI選擇了邏輯迴歸和隨機森林這兩種算法,併爲每種算法生成了四個模型。在所有使用邏輯迴歸算法的四個模型中,模型P2包括一個超參數優化步驟,該步驟將其與P1相區別。模型P3包括特徵工程步驟,而P4包括第二個HPO步驟。

IBM研究人員將這種與AI系統一塊兒工做的模式稱爲「Human-AI Collaboration」,即人與人工智能系統在特定任務上做爲合做夥伴一塊兒工做,在這種協做中,雙方共同貢獻出互補的不可或缺的能力。

結論

AutoAI是IBM Cloud Pak for Data的標準配置,可在混合多雲環境中使用和擴展。AutoAI有不少好處,特別是在支持人們更好地理解和預測其特定業務或專業方面。這些好處包括:

  • 與人類本身完成工做相比,AutoAI準備數據,識別特徵,執行優化和生成模型的速度要快得多,所以能夠更快地構建模型。
  • 克服技能鴻溝,使剛接觸數據科學的行業專家能夠將數據科學方法歸入其平常工做。
  • 因爲探索模型的速度更快,所以發現了更多用例,從而爲數據科學家提供了更多的時間進行實驗。
  • 經過使用「自動特徵工程」選項來識別對預測模型有幫助的關鍵變量,這使得從數據集中得到預測結果變得更加簡單。
  • 經過比較候選模型來肯定特定任務的最佳模型,從而對模型進行排名和探索。
  • 經過AutoAI生成的模型能夠很容易的選擇模型。而後能夠經過REST API訪問已部署的模型並進行預測。

該技術正在迅速變化,所以須要繼續關注遷移學習,業務限制等方面的進一步發展。

Watson Studio Cloud中的AutoAI現已上市。做爲IBM Cloud Pak for Data一部分的AutoAI將於今年晚些時候上市。

Dakuo Wang是位於馬薩諸塞州劍橋的IBM Research AI的一名研究科學家。他的研究在人機交互(HCI)和人工智能(AI)之間的交集。如今,他領導着一組研究人員,工程師和設計師來爲IBM AutoAI進行研究和設計用戶體驗,這是一種使端到端(一端輸入原始數據,一端輸出結果,只關心輸入和輸出,中間步驟全無論的方法)機器學習模型自動化的解決方案。經過研究用戶如何與各類AI系統(例如AutoAI,聊天機器人和臨牀決策支持系統(CDSS))一塊兒協做,他提出了「人與AI協做」做爲研究和設計與人類協做做的AI系統的新框架。加入IBM Research以前,Dakuo Wang得到了博士學位。加州大學歐文分校的信息和計算機科學碩士和碩士學位(MS )得到巴黎中央電子信息系統信息系統學位,並得到北京工業大學計算機科學學士學位。他曾在法國,中國和美國擔任工程師,設計師和研究員。

進入CDA官方小程序,解鎖更多新鮮資訊和優質內容,還有免費試聽課程,千萬不能錯過喲!

相關文章
相關標籤/搜索