Spark on Yarn 學習(一)

最近看到明風的關於數據挖掘平臺下實用Spark和Yarn來作推薦的PPT,感受很贊,如今基於大數據和快速計算方面技術的發展很快,隨着Apache基金會上發佈的一個個項目,感受真的新技術將會不斷出如今你們的面前.算法

做爲技術發燒友,做爲一個看客,來圍觀下,不過從PPT中列出來的技術來看,將來的發展趨勢仍是說是有的,並且仍是頗有發展前景的. 如今Spark和Yarn也就發佈2年多的時間,隨着社區力量的跟上,不斷的將以前的項目都放到一個更好的資源架構的整合上來實現.特別是放到內存上來實現,在速度和效率上仍是確實有區別於以前的其餘技術.因此做爲巨頭之一的淘寶,就跟上的技術發展的趨勢了.可是做爲小公司而言,沒有這樣的大規模的機器部署的狀況下,如何用利用好這些技術呢?編程

下面是PPT中記錄的一些筆記和插圖.算是對整個架構有一個出不的瞭解,接下來有時間就努力的去嘗試下.架構

插上翅膀的大象 基於Spark on Yarn的淘寶數據挖掘平臺併發

爲何選擇Spark On Yarn Spark On Yarn的原理和框架 淘寶在Spark On Yarn上作的工做 基於Spark On Yarn的數據挖掘平臺架構框架

案例性能機器學習

Hadoop在數據挖掘遇到的問題 屢次迭代 
中介數據的序列化和反序列化 
簡單的MR模式 vs 複雜的機器學習算法 
OO編程 vs 函數式風格 
圖計算能力函數

Why Spark 
RDD 
內存計算 
快速迭代 
DAGoop

Scala 
FP編程 
Actor編程 
併發能力性能

Hadoop 
MapReduce 
HDFS訪問學習

Spark的生態圈 Shark(Hive),Streaming(Storm),Mllib(Mahout),Graphx(GraphLab) 
Spark (MapReduce) 
Local Standalone Mesos Yarn HDFS HBASE

Yarn版本0.23.7 目前淘寶部署了 5000 * 2 的架構

Spark On Yarn 的框架 
Spark的生態圈 
image

Spark On Yarn的實現流程 
image

推薦系統的具體架構 
image

總結 粗略的瞭解下技術架構,接下來有時間的話,深刻的實際嘗試下,搭建系統跑下svm等,體會下這個系統!

相關文章
相關標籤/搜索