深度 | 螞蟻金服DASFAA論文帶你深刻了解GBDT模型

時間 2019-12-06

標籤深度螞蟻 dasfaa 論文深刻瞭解 gbdt 模型简体版

原文原文鏈接

小螞蟻說：算法

2018年5月21日，國際頂級數據庫會議DASFAA 2018（International Conference on Database Systems for Advanced Applications）在澳大利亞黃金海岸舉辦。spring

本文是螞蟻金服錄用於DASFAA的論文Unpack Local Model Interpretation for GBDT（做者：方文靜、周俊、李小龍、朱其立）的簡要介紹。數據庫

GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一種迭代的決策樹算法，該算法由多棵決策樹組成，全部樹的結論累加起來作最終答案。它在被提出之初就和SVM一塊兒被認爲是泛化能力（generalization)較強的算法，近些年更由於被用於搜索排序的機器學習模型而引發你們關注。瀏覽器

GBDT模型自被提出以來，一直在有監督的機器學習任務中扮演重要角色，在各類機器學習算法競賽中數見不鮮，所以對其應用的算法業務中對模型結果解釋的需求也日益增長。本文設計並解釋了一種GBDT模型行之有效的局部解釋性方案。機器學習

引言學習

GBDT(Gradient Boosting Decision Tree)模型自被提出以來，一直在有監督的機器學習任務中扮演重要角色，在各類機器學習算法競賽中數見不鮮。GBDT是一系列決策樹弱分類器的集成，將全部決策樹的分值相加得到最終預測結果，因爲這種集成方法的本質，GBDT在衆多問題中具備較優的表現，所以吸引了研究者們對算法進行不斷優化，出現不一樣的變式。樹形模型雖然在諸多任務上取得比線性模型更好的效果，但線性模型的一大優點在於自然能提供特徵重要性的評判，所以在一些須要模型解釋的場景，樹形模型的應用受到了侷限。本文關注爲GBDT模型及其各類變式，提供一種統一的局部解釋方案，對每個預測樣本能夠給出各個特徵的貢獻度，從而對模型預測結果進行歸因。優化

下文是對螞蟻金服在DASFAA的論文Unpack Local Model Interpretation for GBDT的介紹,論文連接：設計

https://link.springer.com/content/pdf/10.1007%2F978-3-319-91458-9_48.pdfblog

請將連接複製至瀏覽器中打開查看。排序

問題說明：

模型解釋分爲兩類，一類是全局的解釋性，衡量特徵在模型中起的總體做用，另外一類是局部的解釋性，目的是對一個特定的預測條目，衡量該條樣本預測分高的緣由。

兩類解釋具備較大區別，以線性模型的解釋爲例，對於進行了歸一化處理後的特徵而言，最終的模型權重絕對值即爲全局的特徵重要性，由於權值越大該特徵對最終分值影響越大，而對於一個取得高分的具體預測實例而言，可能在全局最重要的特徵上，其分值較小，在該條樣本的得分計算上並沒有多大貢獻，所以對於線性模型單條樣本的局部解釋性，會使用權值乘以特徵值來做爲該維特徵的貢獻度，從而獲得各個特徵間的重要性排序。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。