近年來深度學習在CV、NLP等非結構化領域展示出超強的統治力,突破最高水平的算法層出不窮。深度學習在結構化和非結構化領域表現出來的巨大反差已成爲熱門話題,自從以XGBoost、LightGBM爲表明的高性能集成樹模型訓練框架的問世,深度學習在結構化領域就一直沒有超越配角的地位。到目前爲止,Kaggle結構化數據競賽中,傳統機器學習算法依然是最主要的贏家。git
神經網絡強大的表示學習能力真的在結構化數據上沒法展示威力嗎?近日由國內的數據科學平臺領導廠商——九章雲極發佈的開源項目DeepTables正在打破這個局面。DeepTables(簡稱DT)通過大量的測試驗證,在使用相同數據訓練模型的條件下,DT在70%以上的測試數據集上超越XGBoost和LightGBM,DT團隊後續會發布詳細的測試報告。在3月31日剛剛結束的Kaggle競賽Categorical Feature Encoding Challenge II 中DT團隊得到了第1名的成績,其中DT的一個單模型獲得第3名,這在Kaggle比賽動則用數十數百個模型Ensemble的標準動做下,單模型取得如此突出的成績實屬不易。github
Public Leaderboard算法
Private Leaderboard後端
本屆比賽來自全球的參賽隊伍超過1100支,其中不乏Bojan Tunguz, Sergey Yurgenson, KazAnova 這些Kaggle頂級大神的身影,Google的Auto Tables也參加了本場比賽但排名在300之外,因此雖然是Playground類競賽,但這個冠軍的含金量依然不低,DeepTables正在爲深度學習正名。網絡
實際近年來深度學習在結構化的一些細分領域裏已經開始嶄露頭角,在CTR預測和推薦系統方面,神經網絡算法利用其在高維稀疏特徵上先進的表示學習能力逐步超越了傳統機器學習算法。架構
◆ 從2015年Google公司的Wide&Deep網絡開始,到Deep&Cross、PNN、DeepFM、xDeepFM這些模型不斷刷新在公開數據集上的紀錄。研究人員也在不斷嘗試將CV、NLP上的技術引入到結構化領域。 框架
◆ 2019年北京大學的研究團隊提出的AutoInt網絡應用了大名鼎鼎的BERT中Multi-head Attention 思想,有效的提高告終構化數據自動特徵生成和提取的效率,而且必定程度上解決了深度學習缺少解釋性的問題。機器學習
◆ 華爲諾亞實驗室提出的FGCNN在利用卷積神經網絡的同時創新性的提出Recombination Layer將局部特徵組合進一步重組,有效的避免了CNN過於關注局部特徵交互的短板,FGCNN在華爲AppStore的推薦系統中大幅提高原有算法的表現。分佈式
以上成果確實足以讓業界重拾深度學習在結構化數據上的信心,但目前這些成果主要在少數的互聯網巨頭企業中發揮價值,對於大多數企業和數據科學家來講只是看上去很美,想要應用到實際的建模工做中面臨着不小的代價。ide
1)這些模型大多落在論文層面,部分論文雖然提供了用於驗證模型的源碼,但想把這些源碼應用到實際業務上,代碼改造的工做量和難度都不小。
2)結構化和非結構化數據之間最明顯的區別是在結構化領域每個數據集的語義空間和數值的物理含義都有所不一樣,同一個模型在不一樣數據集上的表現有時天差地別,經常須要同時評估各類不一樣模型才能找到最優方案,這也進一步放大了第1點中提到的工程代價。
3)上面提到的大部分模型重點解決的是高維稀疏的類別型特徵的學習能力,對於連續型的數值特徵關注有限,這個部分偏偏是GBM模型的殺手鐗,所以遇到以連續型特徵爲主的數據集這些模型每每不盡人意。
九章雲極的研發團隊基於以上痛點,加上長期服務於金融行業所積累的經驗開發而且開源了DeepTables深度學習工具包,目先後端計算框架支持Tensorflow2.0以上版本。
DT極其易用,僅5行代碼便可完成任意一個數據集的建模工做,數據不作任何的預處理和加工也能夠完成建模,不論是專家型的數據科學家仍是沒有建模能力的業務分析人員,DT都可以提供開箱即用的卓越性能,這是高度依賴手工特徵工程的傳統機器學習算法難以實現的。
另外,DT有着很是開放的架構設計,DT把近年來最優秀的研究成果中的關鍵網絡架構抽取出一組神經網絡構件(nets),這些構件能夠任意組合出一個新的網絡架構,能夠很是簡便的在不一樣數據集上探索最優的網絡組合。
同時,DT支持插件式的擴展方式,用戶能夠按DT的接口開發本身的構件和內置的構件融合在一塊兒構成一個新的模型。以前須要幾周甚至上月的時間完成的工做,在DT的助力下幾個小時甚至幾分鐘就能夠完成。
DT項目地址
https://github.com/DataCanvasIO/deeptables
DT官方文檔
https://deeptables.readthedocs.io/
DT目前還處於相對早期的階段,剛剛發佈了0.1.9。DT下一個計劃是開放神經架構搜索(NAS)引擎,用AI算法實如今不一樣的數據集上自動搜索最佳的網絡架構,實現真正智能的AutoDL。
九章雲極一直以來秉持擁抱開源的態度,旗下的分佈式機器學習平臺APS,其開放的技術架構和開源生態完美融合,受到廣大企業客戶的青睞。九章雲極受益於開源社區,同時也在持續大力回饋於開源社區。
最後插播一個廣告
(* ̄︶ ̄)
DT團隊目前人才緊缺,歡迎有志於AutoML、AutoDL領域的各種人才加盟,爲DT團隊注入洪荒之力。有興趣的同窗能夠直接向DT團隊負責人_(yangjian@zetyun.com)_投遞簡歷。廣闊天地,大有可爲!