【互動問答分享】第8期決勝雲計算大數據時代Spark亞太研究院公益大講堂

時間 2019-11-11

標籤互動問答分享決勝計算數據時代 spark 亞太研究院公益講堂欄目 Spark 简体版

原文原文鏈接

「決勝雲計算大數據時代」html

Spark亞太研究院100期公益大講堂【第8期互動問答分享】算法

Q1:spark線上用什麼版本好？數據庫

建議從最低使用的Spark 1.0.0版本，Spark在1.0.0開始核心API已經穩定；apache
從功能的角度考慮使用最新版本的Spark 1.0.2也是很是好的，Spark 1.0.2在Spark 1.0.1的基礎上作了很是多的改進；框架
Spark 1.0.2改進參考 http://spark.apache.org/releases/spark-release-1-0-2.html less

Q2:但願能夠細細講講推薦系統機器學習

推薦系統是機器學習中主要用武之地，Spark亞太研究院決勝大數據時代100期公益大講堂後續會至少開設三期專題細細講解；oop

Q3:用yarn mesos standalone 這幾種方式那種用在線上好？spark線上用什麼版本好？ 學習

若是之前沒有部署過其它的大數據集羣，集羣中的計算框架只有Spark，建議直接使用Standalone，簡潔而高效，這樣有利於得到最大化的集羣執行效率；大數據
若是集羣中在運行Spark計算平臺的同時還運行了Hadoop的MapReduce、Storm等其它框架，建議使用mesos或者yarn；
在中國建議使用Yarn，由於淘寶已經在生產環境下大規模的使用了Yarn，同時Yarn有很是的中文資料；

Q4:機器學習是否是須要很深的數學功底仍是別人實現了能運行跑起來就ok啦？？

Spark的MLLib極大的簡化了機器學習庫的使用，若是隻是簡單的使用，不要數學功底，只須要按照官方的示例直接使用便可。
若是進行復制的算法實現，須要數學功底，例如線性代數、統計學等

Q5:仍是要深刻學習機器學習的那些算法？

從實際應用的角度考慮，最重要的機器學習算法時協同過濾，基於協同過濾的推薦系統在應用系統中有普遍的應用，須要最爲第一重點掌握；
分類、聚類、線性迴歸等也是很是經常使用而重要的；

Q6:請教下，若是目前應用主要是結構化數據的ORCALE，語言是PLSQL，轉換到SPARKSQL是否難度很大，須要徹底代碼重寫呢？

在實際生產環境下，數據和大數據系統是並行存在的，數據庫通常直接負責線上交互，大數據系統負責數據分析、實時流處理、交互式查詢等；
若是熟練使用PLSQL，能夠垂手可得的掌握Spark SQL
Spark SQL的內容能夠參考http://edu.51cto.com/lesson/id-33429.html

相關文章

相關標籤/搜索

大數據----Spark

大數據時代

互動問答分享

雲計算與大數據

決戰大數據

Spark亞太研究院系列叢書

Docker命令大全

PHP 7 新特性

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<