1.Spark機器學習的本質是什麼?算法
機器學習,數據+算法(迭代),機器學習
從某個角度而言,其實Spark的機器學習就是Spark 平臺之上的函數庫,這些函數基於RDD,DataFrame,DataSet分佈式
Spark機器學習的數據來源,在Spark的最底層確定是RDD封裝的,這個和Spark具體是什麼版本沒有任何關係,版本的發展只不過是提供了更多的更高層的API而已,函數
例如:DataFrame,DataSet等,而之因此有DataFrame,DataSet,通常狀況下是爲了使用統一的優化引擎(抽象程度越高,優化算法就越高)
可是機器學習從算法的角度而言,最原始的實際上是都是基於Vector和Matrix來計算的,學習
也就是說RDD/DataFrame/DataSet裏面的數據從機器學習的角度來說,都是Vector和Matix,而藉助於RDD/DataFrame/DataSet,自然分佈式並行計算完成了機器學習的並行化和可擴展性等優化
其實這和圖計算的思路很是類似,圖計算中數據也是存儲在RDD,可是Spark的圖計算提供了Vertices,Edges,Routing Table等對象來解析RDD中的數據,從而變成圖計算可用的數據對象
RDD/DataFrame/DataSet和Vector/Matrix關係圖:class
學好Spark機器學習的關鍵:原理
1.Spark core擴展
2.Vector和Matrix的學習
3.Spark機器學習的算法:
1.算法原理和應用場景
2.Spark如何實現
3.案例實戰
4.基於上面的步驟,進入深刻地思考
4.綜合案例
概括總結:1.Spark機器學習的本質是什麼
2.RDD/DataFrame/DataSet和Vector/Matrix關係圖