利用pyspark.ml訓練lightgbm模型的流程

在spark上訓練模型的優勢: (1)機器學習算法一般都有很多個步驟迭代計算的過程,機器學習的計算需要在多次迭代後獲得足夠小的誤差或者足夠收斂纔會停止,迭代時如果使用一般的Hadoop分佈式計算框架,每次計算都要讀 / 寫磁盤以及任務的啓動等工作,這回導致非常大的 I/O 和 CPU 消耗。而 Spark 基於內存的計算模型天生就擅長迭代計算,多個步驟計算直接在內存中完成. (2)從通信的角度講,
相關文章
相關標籤/搜索