【互動問答分享】第8期決勝雲計算大數據時代Spark亞太研究院公益大講堂

「決勝雲計算大數據時代」html

Spark亞太研究院100期公益大講堂 【第8期互動問答分享】算法

 

Q1:spark線上用什麼版本好?數據庫

  • 建議從最低使用的Spark 1.0.0版本,Spark在1.0.0開始核心API已經穩定;apache

  • 從功能的角度考慮使用最新版本的Spark 1.0.2也是很是好的,Spark 1.0.2在Spark 1.0.1的基礎上作了很是多的改進;框架

  • Spark 1.0.2改進參考 http://spark.apache.org/releases/spark-release-1-0-2.html less

 

Q2:但願能夠細細講講推薦系統機器學習

  • 推薦系統是機器學習中主要用武之地,Spark亞太研究院決勝大數據時代100期公益大講堂後續會至少開設三期專題細細講解;oop

 

Q3:用yarn  mesos  standalone   這幾種方式那種用在線上好?spark線上用什麼版本好? 學習

  • 若是之前沒有部署過其它的大數據集羣,集羣中的計算框架只有Spark,建議直接使用Standalone,簡潔而高效,這樣有利於得到最大化的集羣執行效率; 大數據

  • 若是集羣中在運行Spark計算平臺的同時還運行了Hadoop的MapReduce、Storm等其它框架,建議使用mesos或者yarn;

  • 在中國建議使用Yarn,由於淘寶已經在生產環境下大規模的使用了Yarn,同時Yarn有很是的中文資料;

 

Q4:機器學習是否是須要很深的數學功底仍是別人實現了 能運行跑起來就ok啦??

  • Spark的MLLib極大的簡化了機器學習庫的使用,若是隻是簡單的使用,不要數學功底,只須要按照官方的示例直接使用便可。

  • 若是進行復制的算法實現,須要數學功底,例如線性代數、統計學等

 

Q5:仍是要深刻學習機器學習的那些算法?

  • 從實際應用的角度考慮,最重要的機器學習算法時協同過濾,基於協同過濾的推薦系統在應用系統中有普遍的應用,須要最爲第一重點掌握;

  • 分類、聚類、線性迴歸等也是很是經常使用而重要的;

     

Q6:請教下,若是目前應用主要是結構化數據的ORCALE,語言是PLSQL,轉換到SPARKSQL是否難度很大,須要徹底代碼重寫呢?

  • 在實際生產環境下,數據和大數據系統是並行存在的,數據庫通常直接負責線上交互,大數據系統負責數據分析、實時流處理、交互式查詢等;

  • 若是熟練使用PLSQL,能夠垂手可得的掌握Spark SQL

  • Spark SQL的內容能夠參考http://edu.51cto.com/lesson/id-33429.html

相關文章
相關標籤/搜索