「決勝雲計算大數據時代」html
Spark亞太研究院100期公益大講堂 【第8期互動問答分享】算法
Q1:spark線上用什麼版本好?數據庫
建議從最低使用的Spark 1.0.0版本,Spark在1.0.0開始核心API已經穩定;apache
從功能的角度考慮使用最新版本的Spark 1.0.2也是很是好的,Spark 1.0.2在Spark 1.0.1的基礎上作了很是多的改進;框架
Spark 1.0.2改進參考 http://spark.apache.org/releases/spark-release-1-0-2.html less
Q2:但願能夠細細講講推薦系統機器學習
推薦系統是機器學習中主要用武之地,Spark亞太研究院決勝大數據時代100期公益大講堂後續會至少開設三期專題細細講解;oop
Q3:用yarn mesos standalone 這幾種方式那種用在線上好?spark線上用什麼版本好? 學習
若是之前沒有部署過其它的大數據集羣,集羣中的計算框架只有Spark,建議直接使用Standalone,簡潔而高效,這樣有利於得到最大化的集羣執行效率; 大數據
若是集羣中在運行Spark計算平臺的同時還運行了Hadoop的MapReduce、Storm等其它框架,建議使用mesos或者yarn;
在中國建議使用Yarn,由於淘寶已經在生產環境下大規模的使用了Yarn,同時Yarn有很是的中文資料;
Q4:機器學習是否是須要很深的數學功底仍是別人實現了 能運行跑起來就ok啦??
Spark的MLLib極大的簡化了機器學習庫的使用,若是隻是簡單的使用,不要數學功底,只須要按照官方的示例直接使用便可。
若是進行復制的算法實現,須要數學功底,例如線性代數、統計學等
Q5:仍是要深刻學習機器學習的那些算法?
從實際應用的角度考慮,最重要的機器學習算法時協同過濾,基於協同過濾的推薦系統在應用系統中有普遍的應用,須要最爲第一重點掌握;
分類、聚類、線性迴歸等也是很是經常使用而重要的;
Q6:請教下,若是目前應用主要是結構化數據的ORCALE,語言是PLSQL,轉換到SPARKSQL是否難度很大,須要徹底代碼重寫呢?
在實際生產環境下,數據和大數據系統是並行存在的,數據庫通常直接負責線上交互,大數據系統負責數據分析、實時流處理、交互式查詢等;
若是熟練使用PLSQL,能夠垂手可得的掌握Spark SQL
Spark SQL的內容能夠參考http://edu.51cto.com/lesson/id-33429.html