早幾年國內外研究者和業界比較關注的是在 Hadoop 平臺上的並行化算法設計。然而, HadoopMapReduce 平臺因爲網絡和磁盤讀寫開銷大,難以高效地實現須要大量迭代計算的機器學習並行化算法。隨着 UC Berkeley AMPLab 推出的新一代大數據平臺 Spark 系統的出現和逐步發展成熟,近年來國內外開始關注在 Spark 平臺上如何實現各類機器學習和數據挖掘並行化算法設計。爲了方便通常應用領域的數據分析人員使用所熟悉的 R 語言在 Spark 平臺上完成數據分析,Spark 提供了一個稱爲 SparkR 的編程接口,使得通常應用領域的數據分析人員能夠在 R 語言的環境裏方便地使用 Spark 的並行化編程接口和強大計算能力。算法
特色:百度看編程