XGBoost缺失值引起的問題及其深度分析

1. 背景

XGBoost模型做爲機器學習中的一大「殺器」,被普遍應用於數據科學競賽和工業領域,XGBoost官方也提供了可運行於各類平臺和環境的對應代碼,如適用於Spark分佈式訓練的XGBoost on Spark。然而,在XGBoost on Spark的官方實現中,卻存在一個因XGBoost缺失值和Spark稀疏表示機制而帶來的不穩定問題。java

事情起源於美團內部某機器學習平臺使用方同窗的反饋,在該平臺上訓練出的XGBoost模型,使用同一個模型、同一份測試數據,在本地調用(Java引擎)與平臺(Spark引擎)計算的結果不一致。可是該同窗在本地運行兩種引擎(Python引擎和Java引擎)進行測試,二者的執行結果是一致的。所以質疑平臺的XGBoost預測結果會不會有問題?算法

該平臺對XGBoost模型進行過屢次定向優化,在XGBoost模型測試時,並無出現過本地調用(Java引擎)與平臺(Spark引擎)計算結果不一致的情形。並且平臺上運行的版本,和該同窗本地使用的版本,都來源於Dmlc的官方版本,JNI底層調用的應該是同一份代碼,理論上,結果應該是徹底一致的,但實際中卻不一樣。數組

從該同窗給出的測試代碼上,並無發現什麼問題:less

//測試結果中的一行,41列 double[] input = new double[]{1, 2, 5, 0, 0, 6.666666666666667, 31.14, 29.28, 0, 1.303333, 2.8555, 2.37, 701, 463, 3.989, 3.85, 14400.5, 15.79, 11.45, 0.915, 7.05, 5.5, 0.023333, 0.0365, 0.0275, 0.123333, 0.4645, 0.12, 15.082, 14.48, 0, 31.8425, 29.1, 7.7325, 3, 5.88, 1.08, 0, 0, 0, 32]; //轉化爲float[] float[] testInput = new float[input.length]; for(int i = 0, total = input.length; i < total; i++){ testInput[i] = new Double(input[i]).floatValue(); } //加載模型 Booster booster = XGBoost.loadModel("${model}"); //轉爲DMatrix,一行,41列 DMatrix testMat = new DMatrix(testInput, 1, 41); //調用模型 float[][] predicts = booster.predict(testMat); 

上述代碼在本地執行的結果是333.67892,而平臺上執行的結果倒是328.1694030761719。機器學習

兩次結果怎麼會不同,問題出如今哪裏呢?分佈式

2. 執行結果不一致問題排查歷程

如何排查?首先想到排查方向就是,兩種處理方式中輸入的字段類型會不會不一致。若是兩種輸入中字段類型不一致,或者小數精度不一樣,那結果出現不一樣就是可解釋的了。仔細分析模型的輸入,注意到數組中有一個6.666666666666667,是否是它的緣由?學習

一個個Debug仔細比對兩側的輸入數據及其字段類型,徹底一致。測試

這就排除了兩種方式處理時,字段類型和精度不一致的問題。優化

第二個排查思路是,XGBoost on Spark按照模型的功能,提供了XGBoostClassifier和XGBoostRegressor兩個上層API,這兩個上層API在JNI的基礎上,加入了不少超參數,封裝了不少上層能力。會不會是在這兩種封裝過程當中,新加入的某些超參數對輸入結果有着特殊的處理,從而致使結果不一致?ui

與反饋此問題的同窗溝通後得知,其Python代碼中設置的超參數與平臺設置的徹底一致。仔細檢查XGBoostClassifier和XGBoostRegressor的源代碼,二者對輸出結果並無作任何特殊處理。

再次排除了XGBoost on Spark超參數封裝問題。

再一次檢查模型的輸入,此次的排查思路是,檢查一下模型的輸入中有沒有特殊的數值,比方說,NaN、-一、0等。果真,輸入數組中有好幾個0出現,會不會是由於缺失值處理的問題?

快速找到兩個引擎的源碼,發現二者對缺失值的處理真的不一致!

XGBoost4j中缺失值的處理

XGBoost4j缺失值的處理過程發生在構造DMatrix過程當中,默認將0.0f設置爲缺失值:

/** * create DMatrix from dense matrix * * @param data data values * @param nrow number of rows * @param ncol number of columns * @throws XGBoostError native error */ public DMatrix(float[] data, int nrow, int ncol) throws XGBoostError { long[] out = new long[1]; //0.0f做爲missing的值 XGBoostJNI.checkCall(XGBoostJNI.XGDMatrixCreateFromMat(data, nrow, ncol, 0.0f, out)); handle = out[0]; } 

XGBoost on Spark中缺失值的處理

而xgboost on Spark將NaN做爲默認的缺失值。

/** * @return A tuple of the booster and the metrics used to build training summary */ @throws(classOf[XGBoostError]) def trainDistributed( trainingDataIn: RDD[XGBLabeledPoint], params: Map[String, Any], round: Int, nWorkers: Int, obj: ObjectiveTrait = null, eval: EvalTrait = null, useExternalMemory: Boolean = false, //NaN做爲missing的值 missing: Float = Float.NaN, hasGroup: Boolean = false): (Booster, Map[String, Array[Float]]) = { //... } 

也就是說,本地Java調用構造DMatrix時,若是不設置缺失值,默認值0被看成缺失值進行處理。而在XGBoost on Spark中,默認NaN會被爲缺失值。原來Java引擎和XGBoost on Spark引擎默認的缺失值並不同。而平臺和該同窗調用時,都沒有設置缺失值,形成兩個引擎執行結果不一致的緣由,就是由於缺失值不一致!

修改測試代碼,在Java引擎代碼上設置缺失值爲NaN,執行結果爲328.1694,與平臺計算結果徹底一致。

//測試結果中的一行,41列 double[] input = new double[]{1, 2, 5, 0, 0, 6.666666666666667, 31.14, 29.28, 0, 1.303333, 2.8555, 2.37, 701, 463, 3.989, 3.85, 14400.5, 15.79, 11.45, 0.915, 7.05, 5.5, 0.023333, 0.0365, 0.0275, 0.123333, 0.4645, 0.12, 15.082, 14.48, 0, 31.8425, 29.1, 7.7325, 3, 5.88, 1.08, 0, 0, 0, 32]; float[] testInput = new float[input.length]; for(int i = 0, total = input.length; i < total; i++){ testInput[i] = new Double(input[i]).floatValue(); } Booster booster = XGBoost.loadModel("${model}"); //一行,41列 DMatrix testMat = new DMatrix(testInput, 1, 41, Float.NaN); float[][] predicts = booster.predict(testMat); 

3. XGBoost on Spark源碼中缺失值引入的不穩定問題

然而,事情並無這麼簡單。

Spark ML中還有隱藏的缺失值處理邏輯:SparseVector,即稀疏向量。

SparseVector和DenseVector都用於表示一個向量,二者之間僅僅是存儲結構的不一樣。

其中,DenseVector就是普通的Vector存儲,按序存儲Vector中的每個值。

而SparseVector是稀疏的表示,用於向量中0值很是多場景下數據的存儲。

SparseVector的存儲方式是:僅僅記錄全部非0值,忽略掉全部0值。具體來講,用一個數組記錄全部非0值的位置,另外一個數組記錄上述位置所對應的數值。有了上述兩個數組,再加上當前向量的總長度,便可將原始的數組還原回來。

所以,對於0值很是多的一組數據,SparseVector能大幅節省存儲空間。

SparseVector存儲示例見下圖:

如上圖所示,SparseVector中不保存數組中值爲0的部分,僅僅記錄非0值。所以對於值爲0的位置其實不佔用存儲空間。下述代碼是Spark ML中VectorAssembler的實現代碼,從代碼中可見,若是數值是0,在SparseVector中是不進行記錄的。

private[feature] def assemble(vv: Any*): Vector = { val indices = ArrayBuilder.make[Int] val values = ArrayBuilder.make[Double] var cur = 0 vv.foreach { case v: Double => //0不進行保存 if (v != 0.0) { indices += cur values += v } cur += 1 case vec: Vector => vec.foreachActive { case (i, v) => //0不進行保存 if (v != 0.0) { indices += cur + i values += v } } cur += vec.size case null => throw new SparkException("Values to assemble cannot be null.") case o => throw new SparkException(s"$o of type ${o.getClass.getName} is not supported.") } Vectors.sparse(cur, indices.result(), values.result()).compressed } 

不佔用存儲空間的值,也是某種意義上的一種缺失值。SparseVector做爲Spark ML中的數組的保存格式,被全部的算法組件使用,包括XGBoost on Spark。而事實上XGBoost on Spark也的確將Sparse Vector中的0值直接看成缺失值進行處理:

val instances: RDD[XGBLabeledPoint] = dataset.select( col($(featuresCol)), col($(labelCol)).cast(FloatType), baseMargin.cast(FloatType), weight.cast(FloatType) ).rdd.map { case Row(features: Vector, label: Float, baseMargin: Float, weight: Float) => val (indices, values) = features match { //SparseVector格式,僅僅將非0的值放入XGBoost計算 case v: SparseVector => (v.indices, v.values.map(_.toFloat)) case v: DenseVector => (null, v.values.map(_.toFloat)) } XGBLabeledPoint(label, indices, values, baseMargin = baseMargin, weight = weight) } 

XGBoost on Spark將SparseVector中的0值做爲缺失值爲何會引入不穩定的問題呢?

重點來了,Spark ML中對Vector類型的存儲是有優化的,它會自動根據Vector數組中的內容選擇是存儲爲SparseVector,仍是DenseVector。也就是說,一個Vector類型的字段,在Spark保存時,同一列會有兩種保存格式:SparseVector和DenseVector。並且對於一份數據中的某一列,兩種格式是同時存在的,有些行是Sparse表示,有些行是Dense表示。選擇使用哪一種格式表示經過下述代碼計算獲得:

/** * Returns a vector in either dense or sparse format, whichever uses less storage. */ @Since("2.0.0") def compressed: Vector = { val nnz = numNonzeros // A dense vector needs 8 * size + 8 bytes, while a sparse vector needs 12 * nnz + 20 bytes. if (1.5 * (nnz + 1.0) < size) { toSparse } else { toDense } } 

在XGBoost on Spark場景下,默認將Float.NaN做爲缺失值。若是數據集中的某一行存儲結構是DenseVector,實際執行時,該行的缺失值是Float.NaN。而若是數據集中的某一行存儲結構是SparseVector,因爲XGBoost on Spark僅僅使用了SparseVector中的非0值,也就致使該行數據的缺失值是Float.NaN和0。

也就是說,若是數據集中某一行數據適合存儲爲DenseVector,則XGBoost處理時,該行的缺失值爲Float.NaN。而若是該行數據適合存儲爲SparseVector,則XGBoost處理時,該行的缺失值爲Float.NaN和0。

即,數據集中一部分數據會以Float.NaN和0做爲缺失值,另外一部分數據會以Float.NaN做爲缺失值! 也就是說在XGBoost on Spark中,0值會由於底層數據存儲結構的不一樣,同時會有兩種含義,而底層的存儲結構是徹底由數據集決定的。

由於線上Serving時,只能設置一個缺失值,所以被選爲SparseVector格式的測試集,可能會致使線上Serving時,計算結果與指望結果不符。

4. 問題解決

查了一下XGBoost on Spark的最新源碼,依然沒解決這個問題。

趕忙把這個問題反饋給XGBoost on Spark, 同時修改了咱們本身的XGBoost on Spark代碼。

val instances: RDD[XGBLabeledPoint] = dataset.select( col($(featuresCol)), col($(labelCol)).cast(FloatType), baseMargin.cast(FloatType), weight.cast(FloatType) ).rdd.map { case Row(features: Vector, label: Float, baseMargin: Float, weight: Float) => //這裏須要對原來代碼的返回格式進行修改 val values = features match { //SparseVector的數據,先轉成Dense case v: SparseVector => v.toArray.map(_.toFloat) case v: DenseVector => v.values.map(_.toFloat) } XGBLabeledPoint(label, null, values, baseMargin = baseMargin, weight = weight) } 
/** * Converts a [[Vector]] to a data point with a dummy label. * * This is needed for constructing a [[ml.dmlc.xgboost4j.scala.DMatrix]] * for prediction. */ def asXGB: XGBLabeledPoint = v match { case v: DenseVector => XGBLabeledPoint(0.0f, null, v.values.map(_.toFloat)) case v: SparseVector => //SparseVector的數據,先轉成Dense XGBLabeledPoint(0.0f, null, v.toArray.map(_.toFloat)) } 

問題獲得解決,並且用新代碼訓練出來的模型,評價指標還會有些許提高,也算是意外之喜。

但願本文對遇到XGBoost缺失值問題的同窗可以有所幫助,也歡迎你們一塊兒交流討論。

做者簡介

  • 兆軍,美團配送事業部算法平臺團隊技術專家。

招聘信息

美團配送事業部算法平臺團隊,負責美團一站式大規模機器學習平臺圖靈平臺的建設。圍繞算法整個生命週期,利用可視化拖拽方式定義模型訓練和預測流程,提供強大的模型管理、線上模型預測和特徵服務能力,提供多維立體的AB分流支持和線上效果評估支持。團隊的使命是爲算法相關同窗提供統一的,端到端的,一站式自助服務平臺,幫助算法同窗下降算法研發複雜度,提高算法迭代效率。

現面向數據工程,數據開發,算法工程,算法應用等領域招聘資深研發工程師/技術專家/方向負責人(機器學習平臺/算法平臺),歡迎有興趣的同窗一塊兒加入,簡歷可投遞至:tech@meituan.com(註明:美團配送事業部)

相關文章
相關標籤/搜索