AI 創造 AI有可能?兩小時就能快速建模

瑪麗.雪萊在創做世界上第一部科幻小說《科學怪人》(又譯: 法蘭克斯坦 )的時候,恐怕無法預見到在一個多世紀後的今天,真的會出現一種 脫胎於虛無,卻能判斷、能決策的存在 。人工智能(AI)自動化近年來受到了廣大的關注,但在真正的建模工程師和業務人員眼中,卻一直只是玩具級別的應用。 不但限制重重,繁瑣的編程和抽象的參數設置對於菜鳥用戶來講,也遠遠稱不上「自動化」。誰能想到,早在 2015 年, 硅谷就成立了一家致力於開發「幫助創造 AI」的 AI 公司 。 日前,R2.ai 的創始人兼 CEO 黃一文接受了採訪,講述他們對於人工智能自動化行業的發展趨勢以及產品技術核心的認識。算法

迴歸本質:業務專家纔是機器學習問題的最適解決者編程

AutoML(Automated machine learning)對於人工智能小區來講並不能說是一個新潮的概念,國內國外的企業都陸續推出了本身的 AutoML 平臺。但這些平臺的用戶和服務對象每每是建模工程師,雖然能很大程度上提高建模工程師的工做效率,但對於常變常新的業務問題來講,卻仍然慢了半拍。事實上,六年前的機器學習自動化產品就已經可以在十幾分鍾內解決 TB 級數據的建模問題了,但對於但願在業務中應用機器學習的企業來講,每每苦於尋找優秀的建模工程師和探索真正有用的應用場景;即使對於已經開始了機器學習應用的企業來講,緩慢的開發速度和低下的模型質量也每每使得企業在高昂的投入面前望而卻步。機器學習

 

換句話說,「傳統的建模流程 + 超高速的機器學習自動化平臺」這一模式並無突破企業在實際應用中解決機器學習的瓶頸。「咱們認爲業務人員實際上是最適合應用機器學習來解決問題的角色,讓正確的人使用正確的工具來解決正確的問題,是咱們想要達到的效果」,黃一文說。要最大化地利用企業的數據,讓需求多樣的企業真的可以在業務當中落實機器學習技術,一個廣泛性強、簡單易用且高度自動化的優質機器學習平臺是不可或缺的。而這偏偏是 R2 Learn 2.0 的技術特色。工具

 

菜鳥的福音,數據科學家的得力助手性能

在 R2 Learn 2.0 中,R2.ai 爲業務問題提供了一個端到端、高自動化的機器學習解決方案。黃一文表示,具備普遍適用性的 AutoML 類產品對於產品化、優化及模型集成豐富度的要求很高,在 R2 Learn 2.0 中, 用戶甚至僅需鼠標操做, 不斷根據平臺的提示進行選擇,就能夠在上傳數據後迅速創建模型。不只如此,在自動建模的過程當中,R2 Learn 2.0 還實現了數據清洗及修復、特徵工程、模型評估等傳統建模過程單元的自動化。如在上圖中,用戶經過 R2 Learn 平臺,可發現該數據集存在兩個問題:學習

目標變量有 3 個水平值優化

預測變量裏存在缺失值和數據類型錯配人工智能

解決這些問題,用戶僅需點擊 Continue,平臺就會引導用戶選擇目標變量中的惟一值,並對預測變量數據質量問題進行自動修復。經過這樣傻瓜式的引導,即使是毫無機器學習知識和經驗的業務人員也能快速爲業務問題進行鍼對性建模,從而實時知足業務需求。而對於掌握有機器學習領域知識的數據科學家或分析師來講,R2 Learn 2.0 平臺還提供了高級編輯模式,用戶不但可以看到模型從數據預處理到模型評估的全過程,還能根據本身的經驗和偏好對模型進行調整,這也體現了平臺的高度透明性和可解釋性。spa

 

自動學習,自動調參:AutoML 迎來改變設計

對任何一個建模工程師來講,從 0 開始創建一個模型都足以成爲不眠之夜的噩夢。談到傳統建模過程的複雜性時,黃一文說道:「建模的挑戰主要是由建模過程在每個步驟都有多元選擇形成的,好比修復數據質量可能就有三四種不一樣的方式,變量工程有十幾種不一樣的方式,算法的選擇和算法的參數調整空間就更大了。這些選擇會使得建模的複雜性指數型上升。」相關信息來源:http://www.ai.org.tw/map.asp

從本質上講,不管是對於人類工程師仍是機器,建模都是一個不斷試錯的過程。人類的優點在於能夠憑藉經驗和直覺找到一個不錯的試錯起點,但這不只對建模工程師有很高的要求,還會使得模型的成功在很大程度上依賴於運氣。而對於機器來講,不斷嘗試正是機器最適合作的事情,輔以高效的優化算法,機器能夠在短期內嘗試大量模型並向用戶推薦最優結果。R2 Learn 2.0 充分利用機器的算力優點,並開發了自學習和自動調參技術來進一步提高平臺的效率和模型的準確性。「若是模型的原始參數與最佳值相距較遠,模型可能會很難收斂,也可能很容易發散到其餘地方。爲了找到一個合適的原始參數,咱們的平臺有一套基於加強學習的知識庫,當用戶上傳了數據開始建模時,咱們會將用戶的數據與咱們知識庫的數據進行精準的配對,從而使得模型從一個比較合理的超參數開始搜索。」黃一文介紹道。

 

兩小時建模,全生命週期管理

效率問題是自動化機器學習須要解決的首要問題。「要讓機器學習自動化工具在企業中真正落實,咱們必須實現端到端的自動化建模」,黃一文說道:「數據修復、特徵工程、模型選擇、模型調參、模型組合等步驟其實都是相互關聯的,自動化及優化的程度越高,模型要搜索的空間也就越大,並且是成百上千倍地擴大。」自動化建模其實是一個搜索優化問題。 即在全部的選項中,用最短的時間找到最優解。爲了解決這一問題,R2.ai 基於強化學習、遺傳算法等開發了五種不一樣的優化算法,使得平臺可以在很是短的時間內用盡量少的資源找到最佳模型。

 

R2 Learn 2.0 的高效在不少應用場景中都獲得了體現,在一個金融行業的應用案例中,R2 Learn 2.0 須要在保證高準確性的狀況下幫助一個避險基金公司創建人工智能交易模型。在將近 100 萬行和超過 80 個變量的數據集上,R2 Learn 2.0 在兩小時內建出了一個 AUC 爲 0.78 的模型,比原來的模型質量提升了 12%。「模型有不一樣的特色,有些模型建模速度很是快,有些模型精度很是高,有些模型效率很是高。而在金融場景中,模型的選擇是很是關鍵的」,黃一文向咱們繼續介紹:「咱們爲 R2 Learn 2.0 設計了一個獨特的仿真優化技術,用戶能夠將場景信息輸入到模型中,系統會據此對模型進行從新優化,從而找到一個真正能夠知足用戶風險收益平衡需求的模型。」除了效率問題之外,準確性問題也是自動化機器學習工具沒法迴避的挑戰。經過 端到端的全鏈建模流程總體優化 ,而不是幾個步驟的局部優化,這是 R2.ai 能夠生成更優異性能模型的法寶。建模的每一步都是互相關聯的。總體優化包括的步驟越多,生成優異模型的機率越高。固然,這同時意味着對優化算法的要求相應提升,這偏偏是 R2.ai 超越競爭對手的技術壁壘。

 

在一個醫療領域的案例中,醫院但願可以經過病人的特徵數據和診斷數據預測並控制病人的再入院率。R2 Learn 2.0 經過對病患的畫像、患病史、醫療診斷指針、入院記錄等海量數據的分析,運用機器學習建模技術, 成功地在短期內構建了 AUC 達 0.846 的模型。該結果成爲了醫院管理者分析並控制再住率的有效依據,大幅下降了出院病人的再入院成本,還能夠給予患者更適合我的的醫療選項,提高患者的治療體驗。除此以外,R2 Learn 2.0 還將全生命週期管理的概念首次植入到了機器學習自動化領域中。黃一文談道:「大部分企業如今主要關注的問題仍是怎樣建出更​​好的模型,但實際上模型的運營也是很是重要的,這就會涉及到模型的全生命週期管理問題。」任何機器學習模型都是基於歷史數據開發出來的,而歷史數據反映的是過去的商業情況,因此模型實際上是有保鮮期的。「企業應該時刻監督模型在實際應用當中的性能,並不斷用新的數據去實時優化舊的模型,這樣才能爲模型『保鮮』。」黃一文如此建議。

 

業務問題,而不僅是機器學習

「咱們但願企業能夠用 98% 的時間來解決業務問題,而不是機器學習問題」,談到整我的工智能和數據行業的將來發展時,黃一文這樣說道。「技術最終是服務於業務的,因此我認爲機器學習工具的發展方向是讓用戶更快更有效地解決業務問題,與商業更好更深結合。」外媒 Interesting Engineering 在報導 R2.ai 這家近年來快速增加的公司時使用了「new generation(新世代)」一詞,咱們也確實看到 R2.ai 爲人工智能在應用當中從 0 到 1 的落實邁出了堅實的一步。「企業落實人工智能基本上能夠有兩種方法,第一種是基於系統規劃,企業經過採集大量數據,搭建基礎設施,一步一步地落實人工智能。而另一種更推薦的方式則是先用現有的數據找到一個能夠落實的場景,從小到大,而不是從大到小地開始建模。這樣能大大下降人工智能落實的成本,也給企業更多的正反饋來進一步應用人工智能」。黃一文爲咱們補充道。

 

那麼,數據科學家會失業嗎?

社會自動化水平的提升讓咱們不得不面對嚴峻的就業形勢,人工智能的普遍應用更是讓大量行業的從業者面臨着失業危機,在談到數據行業從業者的職業問題時,黃一文樂觀地與咱們分享道:「從歷史上來看,人類文明中每個新技術的出現每每伴隨着新行業的出現;自動化水平的提升每每伴隨着新工做機會的出現,失業率不但不會提升,甚至還有可能下降。」人工智能行業的發展速度每每給人一種突飛猛進的感受,但談到將來發展時,黃一文卻顯得很自信:「其實有不少技術咱們在研究室當中已經作出來了,好比非監督學習,很快咱們的用戶就能夠在羣聚、異常檢測、推薦等業務場景下應用自動化的機器學習了。」另外,目前的 R2 Learn 2.0 平臺還只支持結構化的數據,在採訪的最後黃一文也表示將在將來一年着手支持天然語言處理和計算器視覺的應用場景,將非結構化數據的處理也歸入到 R2 Learn 2.0 的自動化範疇以內。

 

「如今有不少人發表言論說人工智能也許會摧毀人類文明。我認爲他們的思惟是侷限在有限的生存空間內的,但事實上咱們所處的世界遠遠不止咱們如今所瞭解的範圍,AI 最大的存在價值之一就是它可以幫助咱們去探知將來的世界。」黃一文繼續說道:「R2 Learn 2.0 就是一個泛用性很強的 AI,將來咱們想作的就是幫助企業去探知更多他們尚未了解的世界。中國人講 授人以魚不如授人以漁 ,當人人可用的 AI 出現以後,企業必定能更深刻地理解業務,不斷開拓新的業務邊界。」

相關文章
相關標籤/搜索