Spark隨機森林實現學習

前言 最近閱讀了spark mllib(版本:spark 1.3)中Random Forest的實現,發現在分佈式的數據結構上實現迭代算法時,有些地方與單機環境不一樣。單機上一些直觀的操作(遞歸),在分佈式數據上,必須進行優化,否則I/O(網絡,磁盤)會消耗大量時間。本文整理spark隨機森林實現中的相關技巧,方便後面回顧。   隨機森林算法概要 隨機森林算法的詳細實現和細節,可以參考論文Brei
相關文章
相關標籤/搜索