（資源整理）帶你入門Spark

時間 2019-11-20

標籤資源整理入門 spark 欄目 Spark 简体版

原文原文鏈接

1、Spark簡介：

如下是百度百科對Spark的介紹：前端

Spark 是一種與 Hadoop 類似的開源集羣計算環境，可是二者之間還存在一些不一樣之處，這些有用的不一樣之處使 Spark 在某些工做負載方面表現得更加優越，換句話說，Spark 啓用了內存分佈數據集，除了可以提供交互式查詢外，它還能夠優化迭代工做負載。算法

Spark 是在 Scala 語言中實現的，它將 Scala 用做其應用程序框架。與 Hadoop 不一樣，Spark 和 Scala 可以緊密集成，其中的 Scala 能夠像操做本地集合對象同樣輕鬆地操做分佈式數據集。sql

2、Spark生態圈介紹

Spark力圖整合機器學習（MLib）、圖算法（GraphX）、流式計算（Spark Streaming）和數據倉庫（Spark SQL）等領域，經過計算引擎Spark，彈性分佈式數據集（RDD），架構出一個新的大數據應用平臺。架構

Spark生態圈以HDFS、S三、Techyon爲底層存儲引擎，以Yarn、Mesos和Standlone做爲資源調度引擎；使用Spark，能夠實現MapReduce應用；基於Spark，Spark SQL能夠實現即席查詢，Spark Streaming能夠處理實時應用，MLib能夠實現機器學習算法，GraphX能夠實現圖計算，SparkR能夠實現複雜數學計算。框架

這一段摘選自：點這裏機器學習

3、Spark教程

有不少想要學習Spark的小夥伴都是自學的，可是網上的教程太多太雜太零散，其實並不適合一個Spark小白的人學習，而咱們實驗樓恰好又有一些系列的教程，所以整理出來，但願對Spark學習者有所幫助~分佈式

咱們就按照上圖的生態圈，從左到右的順序介紹課程吧；函數

一、Spark 講堂之 SQL 入門

Spark SQL 是一個分佈式查詢引擎，在這個教程裏你能夠學習到 Spark SQL 的基礎知識和經常使用 API 用法，瞭解經常使用的數學和統計函數。最後將經過一個分析股票價格與石油價格關係的實例進一步學習如何利用 Spark SQL 分析數據。工具

二、Spark 講堂之 Streaming 入門

Spark Streaming 適用於實時處理流式數據。該教程帶你學習 Spark Streaming 的工做機制，瞭解 Streaming 應用的基本結構，以及如何在 Streaming 應用中附加 SQL 查詢。oop

附帶一張Streaming圖：

三、Spark 講堂之 MLlib 入門

這個教程你能夠了解到 Spark 的 MLlib 庫相關知識，掌握 MLlib 的幾個基本數據類型，而且能夠動手練習如何經過機器學習中的一些算法來推薦電影。

四、Spark 講堂之 GraphX 入門

GraphX是Spark用於解決圖和並行圖計算問題的新組件。GraphX經過RDD的擴展，在其中引入了一個新的圖抽象，即頂點和邊帶有特性的有向多重圖，提供了一些基本運算符和優化了的Pregel API，來支持圖計算。

五、Spark 講堂之 GraphX 圖算法

GraphX包含了一些用於簡化圖分析任務的的圖計算算法。你能夠經過圖操做符來直接調用其中的方法。這個教程中講解這些算法的含義，以及如何實現它們。

六、Spark 講堂之 SparkR 入門

SparkR是一個提供輕量級前端的R包，集成了Spark的分佈式計算和存儲等特性。這個教程將以較爲輕鬆的方式帶你學習如何在SparkR中建立和操做DataFrame，如何應用SQL查詢和機器學習算法等。

七、Spark 講堂之 DataFrame 入門

DataFrame讓Spark具有了處理大規模結構化數據的能力，在比原有的RDD轉化方式更加易用、計算性能更好。這個教程經過一個簡單的數據集分析任務，講解DataFrame的由來、構建方式以及一些經常使用操做。

八、Spark 講堂之 DataFrame 詳解

這個教程經過更加深刻的講解，使用真實的數據集，並結合實際問題分析過程做爲引導，旨在讓Spark學習者掌握DataFrame的高級操做技巧，如建立DataFrame的兩種方式、UDF等。

九、Sqoop 數據遷移工具

Sqoop 是大數據環境中重要的是數據轉換工具，這個教程對Sqoop 的安裝配置進行了詳細的講解，並列舉了Sqoop 在數據遷移過程當中基本操做指令。

以上9個教程比較適合有必定的Spark基礎的人學習。

十、Spark 大數據動手實驗

這個教程是一個系統性的教程，總共15個小節，帶你親身體驗Spark大數據分析的魅力，課程中能夠實踐：
Spark，Scala，Python，Spark Streaming，SparkSQL，MLlib，GraphX，IndexedRDD，SparkR，Tachyon，KeystoneML，BlinkDB等技術點，無疑是學習Spark最快的上手教程！

這個教程較爲系統，很是適合零基礎的人進行學習。