別把引擎當汽車：AutoML不值得……

時間 2019-11-06

標籤別把引擎汽車 automl 不值得简体版

原文原文鏈接

全文共3101字，預計學習時長6分鐘算法

貓和老鼠，第70集——機器貓（1952）微信

平常工做中，我常常用到AutoML（Automated Machine Learning，自動機器學習），在參加ML競賽時，也用過幾回AutoML來輔助主模型，還參加過兩次AutoML競賽。我認爲，AutoML自動化建模過程的想法是很棒的，但這一領域其實被吹吹捧得言過其實了。在將來，一些重要概念，如特徵工程、元學習超參優化，能夠釋放AutoML的潛能；可是目前，一站式的AutoML做爲一種工具，只會徒增開銷。網絡

下文提到的全部數據和操做都是關於表格數據的。機器學習

什麼是AutoML？

數據科學項目工具

數據科學項目包括幾個基本步驟：從商業角度提出問題（選擇任務和成功與否的指標）、收集數據（收集、清理、探索）、建模及評估模型性能，以及在生產環境中應用模型並觀察其性能。性能

數據挖掘跨行業標準流程學習

該流程的每一部分都對項目的成功相當重要。然而，機器學習專家認爲，建模過程是最基本的。設計良好的機器學習模型能夠爲公司帶來不少潛在價值。測試

給定一個數據集和目標（特定指標值越大越好），數據科學家須要在建模過程當中解決優化問題。這一過程很是複雜，須要多種技巧：優化

1. 須要將特徵工程看成一種藝術，而不只僅是一門科學；編碼

2. 優化超參須要深入理解算法和ML核心概念；

3. 須要運用軟件工程技術來輸出簡潔易懂、便於應用的代碼。

此時，AutoML就能派上用場了。

ML建模既是一種藝術，也是一門科學，仍是軟件工程。

AutoML

AutoML的輸入是數據和任務（分類、迴歸、推薦等），輸出則是生產就緒、能預測未知數據的模型。數據驅動管道的每個決策都是一個超參。AutoML的關鍵在於找到可以在合理時間內給出良好分數的超參。

• AutoML用於數據預處理的方法：如何處理數據不平衡；如何填補空值；移除、替代或保留異常值；如何給類別和多個類別列編碼；如何避免目標泄露；如何避免內存錯誤等等；

• AutoML生成並選出有意義的新特徵；

• AutoML選擇模型（線性模型、K-Nearest Neighbors、Gradient Boosting、神經網絡等）；

• AutoML調節所選模型的超參（如，樹模型中數的數量和子採樣的數量、神經網絡中的學習率和epoch數）；

• 有條件的話，AutoML能夠生成一組穩定的模型集合來提升分數。

AutoML發展動力

AutoML將會填補數據科學市場中「供給」和「需求」之間的空白

如今，愈來愈多的公司要麼剛開始收集數據，要麼想要從已收集的數據中獲取潛在價值——他們都想從中分一杯羹。然而，可以知足公司需求、具備相關經驗的數據科學家卻不多。市場供需不平衡，缺口擴大。AutoML剛好能夠填補這一空缺。

可是AutoML這種一站式的解決方案可否給公司創造價值呢？在我看來，答案是否認的。

這些公司須要的是一個過程，而AutoML僅僅是一個工具。工具上的先進彌補不了戰略上的缺失。在開始使用AutoML前，能夠先考慮和諮詢公司合做，制定一個數據科學戰略。這也是爲何大部分AutoML供應商不只提供解決方案，還提供諮詢的緣由。這其中很有技巧。

看起來並非一個好計劃（《南方公園》，s2e17）

AutoML能夠幫助數據科學團隊節省時間

根據2018年Kaggle機器學習和數據科學調查報告，一個普通的數據科學項目，其15%-26%的時間會花在建模或選擇模型過程上。這一過程既要求人力，又要求計算時間。一旦目標或數據發生變更（好比說增長了新的特徵），則須要再重複一遍該過程。而AutoML能夠幫助數據科學家節省這一時間，從而把時間放在更重要的事情上（如椅上擊劍）。