模型融合---Xgboost總結

時間 2019-11-11

標籤模型融合 xgboost 總結简体版

原文原文鏈接

1、簡介

全稱：eXtreme Gradient Boostinghtml

做者：陳天奇python

基礎：GBDTgit

所屬：boosting迭代型、樹類算法github

適用範圍：迴歸，分類，排序算法

xgboost工具包：sklearn xgboost連接 | xgboost工具包(中文)連接 | xgboost工具包(英文)連接chrome

論文連接 | 項目地址 | pptapache

優勢：api

顯示的把樹模型複雜度做爲正則項加到優化目標中。
公式推導中用到了二階導數，用了二階泰勒展開。
實現了分裂點尋找近似算法。
利用了特徵的稀疏性。
數據事先排序而且以block形式存儲，有利於並行計算。
基於分佈式通訊框架rabit，能夠運行在MPI和yarn上。
實現作了面向體系結構的優化，針對cache和內存作了性能優化。

缺點：（與LightGBM相比）數組

XGBoost採用預排序，在迭代以前，對結點的特徵作預排序，遍歷選擇最優分割點，數據量大時，貪心法耗時，LightGBM方法採用histogram算法，佔用的內存低，數據分割的複雜度更低；
XGBoost採用level-wise生成決策樹，同時分裂同一層的葉子，從而進行多線程優化，不容易過擬合，但不少葉子節點的分裂增益較低，不必進行跟進一步的分裂，這就帶來了沒必要要的開銷；LightGBM採用深度優化，leaf-wise生長策略，每次從當前葉子中選擇增益最大的結點進行分裂，循環迭代，但會生長出更深的決策樹，產生過擬合，所以引入了一個閾值進行限制，防止過擬合；

2、Xgboost

1.損失函數

xgboost 也是使用與提高樹相同的前向分步算法。其區別在於：xgboost 經過結構風險極小化來肯定下一個決策樹的參數：緩存

最初損失函數：

$L_t=\sum\limits_{i=1}^mL(y_i, f_{t-1}(x_i)+ h_t(x_i)) + \gamma J + \frac{\lambda}{2}\sum\limits_{j=1}^Jw_{tj}^2$

在GBDT損失函數$L(y, f_{t-1}(x)+ h_t(x))$的基礎上，加入正則項$\Omega(h_t) = \gamma J + \frac{\lambda}{2}\sum\limits_{j=1}^Jw_{tj}^2$其中，J是葉子節點的個數，$w_{tj}$是第j個葉子節點的最優值，這裏的$w_{tj}$和GBDT中的$c_{tj}$是一個意思，Xgboost論文中用的是w表示葉子的值，這裏和論文保持一致。

損失函數的二階展開：

$\begin{align} L_t & = \sum\limits_{i=1}^mL(y_i, f_{t-1}(x_i)+ h_t(x_i)) + \gamma J + \frac{\lambda}{2}\sum\limits_{j=1}^Jw_{tj}^2 \\ & \approx \sum\limits_{i=1}^m( L(y_i, f_{t-1}(x_i)) + \frac{\partial L(y_i, f_{t-1}(x_i) }{\partial f_{t-1}(x_i)}h_t(x_i) + \frac{1}{2}\frac{\partial^2 L(y_i, f_{t-1}(x_i) }{\partial f_{t-1}^2(x_i)} h_t^2(x_i)) + \gamma J + \frac{\lambda}{2}\sum\limits_{j=1}^Jw_{tj}^2 \end{align}$

爲了方便，記第i個樣本在第t個弱學習器的一階和二階導數分別爲：

$g_{ti} = \frac{\partial L(y_i, f_{t-1}(x_i) }{\partial f_{t-1}(x_i)}, \; h_{ti} = \frac{\partial^2 L(y_i, f_{t-1}(x_i) }{\partial f_{t-1}^2(x_i)}$

則損失函數能夠表達爲：

$L_t \approx \sum\limits_{i=1}^m( L(y_i, f_{t-1}(x_i)) + g_{ti}h_t(x_i) + \frac{1}{2} h_{ti} h_t^2(x_i)) + \gamma J + \frac{\lambda}{2}\sum\limits_{j=1}^Jw_{tj}^2$

第一項是常數，對最小化loss無影響，能夠去掉，同時因爲每一個決策樹的第j個葉子節點的取值最終是同一個值$w_{tj}$，所以損失函數簡化爲：

$\begin{align} L_t & \approx \sum\limits_{i=1}^m g_{ti}h_t(x_i) + \frac{1}{2} h_{ti} h_t^2(x_i)) + \gamma J + \frac{\lambda}{2}\sum\limits_{j=1}^Jw_{tj}^2 \\ & = \sum\limits_{j=1}^J (\sum\limits_{x_i \in R_{tj}}g_{ti}w_{tj} + \frac{1}{2} \sum\limits_{x_i \in R_{tj}}h_{ti} w_{tj}^2) + \gamma J + \frac{\lambda}{2}\sum\limits_{j=1}^Jw_{tj}^2 \\ & = \sum\limits_{j=1}^J [(\sum\limits_{x_i \in R_{tj}}g_{ti})w_{tj} + \frac{1}{2}( \sum\limits_{x_i \in R_{tj}}h_{ti}+ \lambda) w_{tj}^2] + \gamma J \end{align}$

把每一個葉子節點區域樣本的一階和二階導數的和單獨表示以下：

$G_{tj} = \sum\limits_{x_i \in R_{tj}}g_{ti},\; H_{tj} = \sum\limits_{x_i \in R_{tj}}h_{ti}$

最終損失函數的形式能夠表示爲：

$L_t = \sum\limits_{j=1}^J [G_{tj}w_{tj} + \frac{1}{2}(H_{tj}+\lambda)w_{tj}^2] + \gamma J$

問題1：xgboost如何使用MAE或MAPE做爲目標函數？參考連接

xgboost須要目標函數的二階導數信息（或者hess矩陣），在迴歸問題中常常將MAE或MAPE做爲目標函數，然而，這兩個目標函數二階導數不存在。

$MAE=\frac{1}{n}\sum_1^n|y_i-\hat y_i|$，$MAPE=\frac{1}{n}\sum _i^n \frac{|y_i-\hat y_i|}{y_i}$

其中，$y_i$是真實值，$\hat y_i$是預測值

方法（1）：利用可導的函數逼近MAE或MAPE---MSE、Huber loss、Pseudo-Huber loss

　　利用MSE逼近是能夠的，可是MSE在訓練初偏差較大的時候，loss是其平方，會使得訓練偏離MAE的目標函數，通常難以達到高精度的要求。

　　利用Huber loss進行逼近也能夠，可是Huber loss是分段函數，不方便計算，其中$\delta$是可調節參數。

　　實際採用Huber loss的可導逼近形式：Pseudo-Huber loss function

　　一階導數：

　　二階導數：

方法（2）：自定義二階導數的值：$ln(cosh(x))$

用$ln(cosh(x))$以及$log(exp(-x) + exp(x))$進行逼近

$ln(cosh(x))$的一階導數：$tanh(x)$

$ln(cosh(x))$的二階導數：$1-tanh(x)*tanh(x)$

2.結構分

當$w_{tj}$取最優解的時候，原損失函數對應的表達式爲：$L_t = -\frac{1}{2}\sum\limits_{j=1}^J\frac{G_{tj}^2}{H_{tj} + \lambda} +\gamma J$

在推導過程當中假設$w_{tj}$與$T,G_j,H_j$無關，這其實假設已知樹的結構。事實上$L_t$是與$T$相關的，甚至與樹的結構相關，所以定義$L_t$爲結構分。 結構分刻畫了：當已知樹的結構時目標函數的最小值。

3.尋找分裂節點的候選集

Xgboost框架用tree_method[默認爲’auto’] 指定了構建樹的算法，能夠爲下列的值(分佈式，以及外存版本的算法只支持 ‘approx’,’hist’,’gpu_hist’ 等近似算法)：

‘auto’： 使用啓發式算法來選擇一個更快的tree_method：
　　　　　　對於小的和中等的訓練集，使用exact greedy 算法分裂節點
　　　　　　對於很是大的訓練集，使用近似算法分裂節點
　　　　　　舊版本在單機上老是使用exact greedy 分裂節點
‘exact’： 使用exact greedy 算法分裂節點
‘approx’： 使用近似算法分裂節點
‘hist’： 使用histogram 優化的近似算法分裂節點（好比使用了bin cacheing 優化）
‘gpu_exact’： 基於GPU 的exact greedy 算法分裂節點
‘gpu_hist’： 基於GPU 的histogram 算法分裂節點

3.1 暴力枚舉（exact greedy）

（1）第一種方法是對現有的葉節點加入一個分裂，而後考慮分裂以後目標函數下降多少。

若是目標函數降低，則說明能夠分裂；
若是目標函數不降低，則說明該葉節點不宜分裂。

（2）對於一個葉節點，加入給定其分裂點，定義劃分到左子樣本節點的集合爲：$\mathbb{I_R}$，則有：

（3）定義葉節點的分裂增益爲：

其中，

$\frac{G^2_L}{H_L+\lambda}$表示：該葉節點的左子樹的結構分
$\frac{G^2_R}{H_R+\lambda}$表示：該葉節點的右子樹的結構分
$\frac{G^2}{H+\lambda}$表示：若是不分裂，則該葉節點自身的結構分
$-\lambda$表示：由於分裂致使葉節點數量增大1，從而致使增益的降低。

每次只有一個葉節點分裂，所以其餘葉節點不會發生變化，所以：

若$Gain>0$，則該葉節點應該分裂；
若$Gain<0$，則該葉節點不宜分裂。

（4）如今的問題是：不知道分裂點，對於每一個葉節點，存在多個分裂點，且可能不少分裂點都能帶來增益。

解決辦法：對於葉節點中的全部可能的分裂點進行一次掃描。而後計算每一個分裂點的增益，選取增益最大的分裂點做爲本葉節點的最優分裂點。

（5）最優分裂點貪心算法

輸入：$D={(X_1,y_1),(X_2,y_2), ...(X_m,y_m)}$，屬於當前葉節點的樣本集的下標集合$\mathbb{I}$

輸出：當前葉節點最佳分裂點

算法：

　　step1：初始化 $score \leftarrow 0$，$G \leftarrow_{i\in \mathbb{I}}g_i$，$H \leftarrow_{i\in \mathbb{I}}h_i$

　　step2：遍歷各維度 $k=1,2,...,m$：

　　　　a)初始化：$G_L \leftarrow 0,H_L \leftarrow 0$

　　　　b)若是第$k$維特徵爲連續值，則將當前葉節點中的樣本從小到大排序。而後用$j$順序遍歷排序後的樣本下標。

　　　　c)若是第$k$維特徵爲離散值${a_1,a_2,...,a_{n_k}}，設當前葉節點中第$k$維取值$a_j$樣本的下標集合爲$\mathbb{I_j}$，則遍歷$j=1,2,...,n_k$：

　　step3：選取最大的$score$對應的維度和拆分點做爲最優拆分點。

分裂點貪心算法嘗試全部特徵和全部分裂位置，從而求得最優分裂點。當樣本太大且特徵爲連續值時，這種暴力作法的計算量太大。

3.2 近似算法（approx）

（1）近似算法尋找最優分裂點時不會枚舉全部的特徵值，而是對特徵值進行聚合統計，而後造成若干個桶。而後僅僅將桶邊界上的特徵的值做爲分裂點的候選，從而獲取計算性能的提高。

（2）對第k個特徵進行分桶，分桶的數量l就是全部樣本在第k個特徵上的取值的數量。

　　若是第k個特徵爲連續特徵，則執行百分位分桶，獲得分桶的區間爲：$S_k={s_{k,1},s_{k,2},...,s_{k,l}}$，其中$s_{k,1}<s_{k,2}<...<s_{k,l}$，分桶的數量、分桶的區間都是超參數，須要仔細挑選

　　若是第k個特徵爲離散特徵，則執行按離散值分桶，獲得的分桶爲：$S_k={s_{k,1},s_{k_2},...,s_{k,l}}$，其中，$s_{k,1}<s_{k,2}<...<s_{k,l}$ 爲第k個特徵的全部可能的離散值。

（3）最優分裂點近似算法

算法流程：

輸入：數據集$D={(X_1,y_1),(X_2,y_2),...,(X_N,y_N)}$，屬於當前葉結點的樣本集的下標集合$\mathbb{I}$

輸出：當前葉節點最佳分裂點

step1：對每一個特徵進行分桶。假設對第k個特徵上的值進行分桶爲：$S_k={s_{k,1},s_{k,2},...,s_{k,l}}$，若是第k個特徵爲連續特徵，則要求知足$s_{k,1}<s_{k,2}<...<s_{k,l}$

step2：初始化：$score \leftarrow 0，G\leftarrow \sum_{i\in \mathbb{I}} g_i ,H\leftarrow \sum_{i\in \mathbb{I}} h_i$

step3：遍歷各維度：$k=1,...,n$

　　　　初始化：$G_L \leftarrow 0，H_L \leftarrow 0$

　　　　遍歷各拆分點，即遍歷$j=1,2,...,l$：

　　　　　　若是是連續特徵，即設葉節點的樣本中，第k個特徵取值在區間$(s_{k,j},s_{k,j+1}]$的樣本的下標集合爲$\mathbb{I}_j$，則：

　　　　　　若是是離散特徵，則設葉結點的樣本中，第k個特徵取值等於$s_{k,j}$的樣本的下標集合爲$\mathbb{I}$ ，則：

　　　　選取最大的score對應的維度和拆分點做爲最優拆分點。

（4）分桶有兩種模式：

全局模式：在算法開始時，對每一個維度分桶一次，後續的分裂都依賴於該分桶並再也不更新；

　　優勢：只須要計算一次，不須要重複計算；

　　缺點：在通過屢次分裂以後，葉節點的樣本有可能在不少全局桶中是空的。

局部模式：每次拆分以後再從新分桶；

　　優勢：每次分桶都能保證各桶中的樣本數量都是均勻的；

　　缺點：計算量較大。

全局模式會構造更多的候選拆分點，而局部模式會更適合構造構造更深的樹。

（5）分桶時的桶區間間隔大小是個重要的參數。區間間隔越小，則桶越多，劃分的越精細，候選的拆分點就越多。

3.2.1 Quantile

（1）$\phi$-quantile

Quantile就是ranking。若是有$N$個元素，那麼$\phi$-quantile就是指rank在$⌊\phi × N⌋$的元素。例如$S=[11,21,24,61,81,39,89,56,12,51]$，首先排序爲$[11,12,21,24,39,51,56,61,81,89]$，則$0.1-quantile=11, 0.5-quantile=39$. 上面的是exact quantile尋找方法，若是數據集很是大，難以排序，則須要引入$\epsilon-approximate \phi-quantiles$

該方法爲離線算法（全部的數必需要排序，再找分位點），是不適用於數據流的。

（2）$\epsilon$-approximate $\phi$-quantiles

$\phi$-quantile是在區間$[⌊(\phi−\epsilon)×N⌋,⌊(\phi+\epsilon)×N⌋]$

　　當$N$增長時，$φ$-quantile的「正確」答案（$\epsilon$-近似）的集合增長。所以，您能夠從輸入流中刪除一些元素，並仍保留ε近似分位數查詢的正確答案（=詢問$\epsilon$近似分位數的查詢）

　　回到XGBoost的建樹過程，在創建第i棵樹的時候已經知道數據集在前面i−1棵樹的偏差，所以採樣的時候是須要考慮偏差，對於偏差大的特徵值採樣粒度要加大，偏差小的特徵值採樣粒度能夠減少，也就是說採樣的樣本是須要權重的。

從新審視目標函數：

$$\begin{equation} \sum_{i=1}^n [g_i f_t(x_i) + \frac{1}{2} h_i f_t^2(x_i)] + \Omega(f_t) \end{equation}$$

經過配方能夠獲得

$$\begin{equation} \sum_{1}^n \left[ \frac {1}{2} h_i \left( f_t(x_i) - (-g_i/h_i)\right)^2 \right] + \Omega (f_t) + constant \end{equation}$$

所以能夠將該目標看作是第$m$棵決策樹，關於真實標籤爲$-\frac{g_i}{h_i}$和權重爲$h_i$的、損失函數爲平方損失的形式。

3.2.2 Weighted Quantile Sketch

（1）二階導數$h$爲權重的解釋

若是損失函數是Square loss，即$Loss(y, \widehat y) = (y - \widehat y)^2$，則$h=2$，那麼其實是不帶權；若是損失函數是Log Loss，則$h=pred * (1-pred)$。這是個開口朝下的一元二次函數，因此最大值在0.5。當$pred$在0.5附近，這個值是很是不穩定的，很容易誤判，h做爲權重則所以變大，那麼直方圖劃分，這部分就會被切分的更細。

（2）問題轉換

　　假設候選樣本的第k維特徵，及候選樣本的損失函數的二階偏導數爲：$\begin{equation} D_k = \{(x_{1k}, h_1), (x_{2k}, h_2), \cdots (x_{nk}, h_n)\} \end{equation}$

　　定義排序函數：$x_{i,k}$表示樣本$x_i$的第$k$個特徵

　　它刻畫的是：第$k$維特徵小於$z$的樣本的$h$之和，佔總的$h$之和的比例，其中二階導數$h$能夠視爲權重，在這個排序函數下，找到一組點$\{ s_{k1}, s_{k2}, ... ,s_{kl} \}$，知足：$% <![CDATA[ \begin{equation} | r_k (s_{k,j}) - r_k (s_{k, j+1}) | < \varepsilon \end{equation} %]]>$。

　　其中，${s_{k1}} = \mathop {\min }\limits_i {x_{ik}},{s_{kl}} = \mathop {\max }\limits_i {x_{ik}}$，$\epsilon$爲採樣率，直觀上理解，最後會獲得$1/{\epsilon}$個分界點。其中$x_{i,k}$表示樣本$x_i$的第$k$個特徵，即：

　　最小的拆分點：全部樣本第$k$維的最小值；

　　最大的拆分點：全部樣本第$k$維的最大值；

　　中間的拆分點：選取拆分點，使得相鄰拆分點的排序函數值小於$\epsilon$（分桶的桶寬）。其意義爲：第$k$維大於等於$s_{k,j}$，小於$s_{k,j+1}$的樣本的$h$之和，佔總的$h$之和的比例小於$\epsilon$；這種拆分點使得每一個桶內的以$h$爲權重的樣本數量比較均勻，而不是樣本個數比較均勻。

舉例：

要切分爲3個，總和爲1.8，所以第1個在0.6處，第2個在1.2處。

　　對於每一個樣本都有相同權重的問題，有quantile sketch算法解決該問題，做者提出Weighted Quantile Sketch算法解決這種weighted datasets的狀況

（3）Weighted Quantile Sketch算法

問題：To design an algorithm, you must first design an adequate data structure to maintain the information used by the algorithm

a) [$v_i，min_i，max_i$]

該數據結構須要每插入值進行大量操做。雖然它頗有用，但效率不高

b) [$v_i，g_i$]

這個數據結構存在問題：它不包含足夠的信息來刪除沒必要要的條目

c) Greenwald & Khanna's 算法：[$v_i,g_i,\triangle_i$]

定義：

$v_0$=目前爲止遇到的最小的數

$v_{s-1}$=目前爲止遇到的最大的數

三個性質：

性質1：$r_{min}(v_i) = \sum_{j=0}^{i}g_j$

性質2：$r_{max}(v_i) = \sum_{j=0}^{i}g_j+\triangle_i$

性質3：$g_0+g_1+...+g_{s-1}=N$

舉例：

命題1：summary達到的準確度，偏差$e=max_{all i}(g_i+\triangle_i)/2$

推論1：Greenwald和Khanna算法的不變性

GK算法框架：先判斷是否要合併，再插入

插入算法：

Inserting an arriving value must maintain the consistency of the information in the summary

證實

刪除算法：

how to use the quantile summary？

The quantile summary is used to answer quantile queries
Given a ε-approximate quantile summary, how do we use it to answer a quantile queries ?

3.3 直方圖算法（hist）

直方圖聚合是樹木生長中的主要計算瓶頸。咱們引入了一種新的樹生長方法hist，其中只考慮了可能的分裂值的子集。與FastBDT和LightGBM同樣，連續特徵被分紅不連續的區域。因爲較少的索引操做，直方圖累積變得更快

新方法與tree_method = approx有何不一樣？

xgboost中現有的近似分裂方法還將連續特徵存儲到離散區間以加速訓練。 approx方法爲每次迭代生成一組新的bin，而hist方法在屢次迭代中重用bin。

hist方法能夠實現approx方法沒法實現的額外優化，以下所示：

箱的緩存：用bin ID替換訓練數據中的連續特徵值並緩存數據結構
直方圖減法技巧：爲了計算一個節點的直方圖，咱們簡單地取其父和兄弟的直方圖之間的差別。

除了上述改進以外，還有一些亮點

天然支持稀疏矩陣的有效表示，如xgboost，稀疏矩陣，混合稀疏+密集矩陣的有效加速
可擴展到xgboost中的其餘現有功能，例如單調約束，語言綁定。

如何使用？

只需將tree_method設置爲hist便可。您可能還須要設置max_bin，它表示存儲連續特徵的（最大）離散區間數。默認狀況下，max_bin設置爲256.增長此數字能夠提升分割的最佳性，但代價是計算時間較長。

4.缺失值

（1）真實場景中，有不少可能致使產生稀疏。如：數據缺失、某個特徵上出現不少 0 項、人工進行 one-hot 編碼致使的大量的 0。

理論上，數據缺失和數值0的含義是不一樣的，數值 0 是有效的。
實際上，數值0的處理方式相似缺失值的處理方式，都視爲稀疏特徵。
在xgboost 中，數值0的處理方式和缺失值的處理方式是統一的。這只是一個計算上的優化，用於加速對稀疏特徵的處理速度。
對於稀疏特徵，只須要對有效值進行處理，無效值則採用默認的分裂方向。

　　注意：每一個結點的默認分裂方向可能不一樣。

（2）在xgboost 算法的實現中，容許對數值0進行不一樣的處理。能夠將數值0視做缺失值，也能夠將其視做有效值。若是數值0是有真實意義的，則建議將其視做有效值。

（3）缺失值處理算法

輸入：數據集$D={(X_1,y_1),(X_2,y_2),...,(X_N,y_N)}$

　　　屬於當前葉結點的樣本集的下標集合$\mathbb{I}$

　　　屬於當前葉節點，且第$k$維特徵有效的樣本的下標集合$\mathbb{I}_k = \{{i\in \mathbb{I}| x_{k,i}\neq missing}\}$

輸出：當前葉節點最佳分裂點

step1：初始化：$score \leftarrow 0，G\leftarrow \sum_{i\in \mathbb{I}} g_i ,H\leftarrow \sum_{i\in \mathbb{I}} h_i$

step3：遍歷各維度：$k=1,...,n$

　　　 先從左邊開始遍歷：

　　　　　　初始化：$G_L \leftarrow 0，H_L \leftarrow 0$

　　　　　　遍歷各拆分點：沿着第$k$維，將當前有效的葉節點的樣本從小到大排序。這至關於全部無效特徵值的樣本放在最右側，所以能夠保證無效的特徵值都在右子樹。而後用$j$順序遍歷排序後的樣本下標：

　　　　再從右邊開始遍歷：

　　　　　　初始化：$G_R \leftarrow 0，H_R \leftarrow 0$

　　　　　　遍歷各拆分點：沿着第$k$維，將當前有效的葉節點的樣本從大到小排序。這至關於全部無效特徵值的樣本放在最左側，所以能夠保證無效的特徵值都在左子樹。而後用$j$逆序遍歷排序後的樣本下標：

　　　　選取最大的score對應的維度和拆分點做爲最優拆分點。

缺失值處理算法中，經過兩輪遍歷能夠確保稀疏值位於左子樹和右子樹的情形。

5. 其餘優化

5.1 正則化

xgboost在學習過程當中使用了以下的正則化策略來緩解過擬合：

經過學習率$v$來更新模型：$f_m(x)=f_{m-1}(x)+vh_m(x;\theta_m)$，$0<v<=1$，也叫shrinkage
相似於隨機森林，採起隨機屬性選擇，也叫col_sample

5.2 計算速度提高

xgboost在如下方面提出改進來提高計算速度：

預排序pre-sorted；
cache-aware預取；
Out-of-Core大數據集

5.2.1 預排序

（1）xgboost提出column block數據結構來下降排序時間。

每個block表明一個特徵的值，樣本在該block中按照它在該特徵的值排好序。這些block只須要在程序開始的時候計算一次，後續排序只須要線性掃描這些block便可。
Block中的數據以稀疏格式CSC進行存儲。
因爲屬性之間是獨立的，所以在每一個維度尋找劃分點能夠並行計算。

時間複雜度減小：

在Exact greedy算法中，將整個數據集存放在一個Block中。這樣，複雜度從原來的$O(Hd||x||_0logn)$降爲$O(Hd||x||_0+||x||_0logn)$，其中$||x||_0$爲訓練集中非缺失值的個數。這樣，Exact greedy算法就省去了每一步中的排序開銷。在近似算法中，使用多個Block，每一個Block對應原來數據的子集。不一樣的Block能夠在不一樣的機器上計算。該方法對Local策略尤爲有效，由於Local策略每次分支都從新生成候選切分點。

（2）block能夠僅存放樣本的索引，而不是樣本自己，這樣節省了大量的存儲空間。

如：block_1表明全部樣本在feature_1上的從小到大排序：sample_no1,sample_no2,...

其中樣本編號出現的位置表明了該樣本的排序。

能夠看出，只需在建樹前排序依次，後面節點分裂時能夠直接根據索引獲得梯度信息。