『Power AI by AI』 PAI-AutoML2.0重磅發佈

PAI-AutoML調參服務是經過算法的方式解放用戶調節算法參數的工做。自2018年8月發佈PAI-AutoML1.0版本以來,該功能已經幫助衆多PAI的中小企業用戶提高了模型的準確性,獲得了不錯的反饋。html

PAI-AutoML1.0版本介紹文章:https://help.aliyun.com/document_detail/87393.html,爲了進一步提高該服務的能力,PAI在今日發佈AutoML調參服務2.0版本,目前該功能已經在PAI各區域服務全量上線。算法

在AutoML2.0版本中將包含如下Feature:數組

  • 新增目前業內熱門的高斯調參方法以及針對大規模數據改良後的高斯採樣算法
  • 增長了提早中止條件(EarlyStop)機制,幫助用戶能更高效的利用資源

典型用戶場景

某公司主營業務是廣告DSP平臺,對於廣告DSP公司來說,CTR預估準確性是營收的生命線。而CTR預估算法在機器學習領域屬於二分類算法,目的是經過用戶畫像判斷投放給用戶的廣告是否會被點擊。數據結構

二分類算法若是在PAI平臺選用GBDT或者RF這些算法須要有大量的參數調節,並且每一個參數都具備很廣的定義域,光靠人工手動調節很難鎖定最優的參數組合。以下圖,僅樹的數目這一個參數就有[1,10000]這1萬種參數可能性。dom

經過PAI-AutoML工具,只須要設置每一個參數的大體範圍,就能夠經過調參算法自動找到最優參數組合:機器學習

從收益來說,假設用戶每日投放廣告量爲1000萬次,使用AutoML以前的CTR預估準確率爲0.7%,也就是投放1000萬次會得到點擊7萬次。若是經過AutoML調參功能將CTR預估準確性提高到0.8%,能夠幫助平臺天天新增點擊1萬次。假設每次廣告點擊平臺的收益是1元,那麼平臺日新增收入將增長1萬元,年直接經濟收益超過百萬。工具

開箱即用

目前PAI-AutoML功能已經全面上線,只須要進入PAI-STUDIO頁面,地址:https://pai.data.aliyun.com/console學習

新建項目並在首頁模板中找到」基於對象特徵的推薦「模板:優化

點擊控制面板中的AutoML功能便可開始試用:url

詳細說明

在2.0版本中調參算法種類從4個增長到7個,各個算法詳細說明以下:

算法名稱 說明
Gause(高斯算法) 高斯過程,是一種非參數貝葉斯模型。做爲經典算法,高斯過程已經普遍地被應用於超參優化領域。它經過不斷觀測超參配置表現來擬合代理模型,再經過模型的預測能力來強化決策,從而能在有限的嘗試次數中更有目的地選出合適的超參結果。
Sample(採樣算法) 該算法是PAI團隊與達摩院合做自研的算法。對於數據量巨大的實驗,其實僅須要一部分數據,就能夠對一組超參所能獲得的最終結果做一個預估。採樣算法利用這一特性,結合PBT算法的思想,在增長超參選取數量的同時,逐步提升採樣比例,不只能進行更廣的探索也能得到更快的加速
EvolutionaryOptimizer(進化式調參方法) 該算法是PAI團隊基於PBT理論自研的算法,EvolutionaryOptimizer算法將調參問題當作一個多輪迭代按部就班探索最優解的問題。其中」探索樣本數「表示每輪迭代的樣本,」探索次數「表示迭代輪數,」收斂係數「控制每次迭代的步長。在迭代過程當中EvolutionaryOptimizer會在每輪結束後拋棄效果不理想的探索樣本,並在效果更優的探索樣本集合中向外拓展更多探索樣本,造成下一輪的計算探索樣本集合。以此方式迭代,直到完成迭代輪數。
PBT(Population-based training) PBT是一類基於種羣概念的演化算法。它把超參配置看爲一個種羣,將搜索過程做爲一個動態環境,在不斷的迭代中對超參配置們進行優勝劣汰的篩選,最終獲得表現更好的結果。這類算法概念簡潔,能夠適應不一樣的數據結構,在深度學習模型訓練中取得過較好效果。
Grid Search 網格搜索調參法,將每一個參與調參的參數按照比例等分切割,而且將切割後的參數隨機組合生成參數數候選集進行計算和對比。
Random Search 隨機搜索調參法,在每一個參數空間中隨機採樣而且組合造成參數候選集,並對候選集進行計算和對比
User-define 用戶自定義參數組合

原文連接 本文爲雲棲社區原創內容,未經容許不得轉載。

相關文章
相關標籤/搜索