小螞蟻說:算法
2018年5月21日,國際頂級數據庫會議DASFAA 2018(International Conference on Database Systems for Advanced Applications)在澳大利亞黃金海岸舉辦。spring
本文是螞蟻金服錄用於DASFAA的論文Unpack Local Model Interpretation for GBDT(做者:方文靜、周俊、李小龍、朱其立)的簡要介紹。數據庫
GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一種迭代的決策樹算法,該算法由多棵決策樹組成,全部樹的結論累加起來作最終答案。它在被提出之初就和SVM一塊兒被認爲是泛化能力(generalization)較強的算法,近些年更由於被用於搜索排序的機器學習模型而引發你們關注。瀏覽器
GBDT模型自被提出以來,一直在有監督的機器學習任務中扮演重要角色,在各類機器學習算法競賽中數見不鮮,所以對其應用的算法業務中對模型結果解釋的需求也日益增長。本文設計並解釋了一種GBDT模型行之有效的局部解釋性方案。機器學習
引言學習
GBDT(Gradient Boosting Decision Tree)模型自被提出以來,一直在有監督的機器學習任務中扮演重要角色,在各類機器學習算法競賽中數見不鮮。GBDT是一系列決策樹弱分類器的集成,將全部決策樹的分值相加得到最終預測結果,因爲這種集成方法的本質,GBDT在衆多問題中具備較優的表現,所以吸引了研究者們對算法進行不斷優化,出現不一樣的變式。樹形模型雖然在諸多任務上取得比線性模型更好的效果,但線性模型的一大優點在於自然能提供特徵重要性的評判,所以在一些須要模型解釋的場景,樹形模型的應用受到了侷限。本文關注爲GBDT模型及其各類變式,提供一種統一的局部解釋方案,對每個預測樣本能夠給出各個特徵的貢獻度,從而對模型預測結果進行歸因。優化
下文是對螞蟻金服在DASFAA的論文Unpack Local Model Interpretation for GBDT的介紹,論文連接:設計
https://link.springer.com/content/pdf/10.1007%2F978-3-319-91458-9_48.pdfblog
請將連接複製至瀏覽器中打開查看。排序
問題說明:
模型解釋分爲兩類,一類是全局的解釋性,衡量特徵在模型中起的總體做用,另外一類是局部的解釋性,目的是對一個特定的預測條目,衡量該條樣本預測分高的緣由。
兩類解釋具備較大區別,以線性模型的解釋爲例,對於進行了歸一化處理後的特徵而言,最終的模型權重絕對值即爲全局的特徵重要性,由於權值越大該特徵對最終分值影響越大,而對於一個取得高分的具體預測實例而言,可能在全局最重要的特徵上,其分值較小,在該條樣本的得分計算上並沒有多大貢獻,所以對於線性模型單條樣本的局部解釋性,會使用權值乘以特徵值來做爲該維特徵的貢獻度,從而獲得各個特徵間的重要性排序。