本章將介紹爲何要學習大數據、如何學好大數據、如何快速轉型大數據崗位、本項目實戰課程的內容安排、本項目實戰課程的前置內容介紹、開發環境介紹。同時爲你們介紹項目中涉及的Hadoop、Hive相關的知識html
Spark做爲近幾年最火爆的大數據處理技術,是成爲大數據工程師必備的技能之一。本章將從以下幾個方面對Spark進行一個宏觀上的介紹:Spark產生背景、特色、發展史、Databricks官方調查結果、Spark與Hadoop的對比、Spark開發語言及運行模式介紹 ...編程
工欲善其事必先利其器,本章講述Spark源碼編譯、Spark Local模式運行、Spark Standalone模式運行架構
Spark SQL面世已來,它不只接過了Shark的接力棒,繼續爲Spark用戶提供高性能SQL on Hadoop解決方案,還爲Spark帶來了通用、高效、多元一體的結構化數據處理能力。本章將從Spark SQL前世此生、SQL on Hadoop框架、Spark SQL概述、願景、架構,這幾個角度進行展開講解...框架
Hive是SQL-on-Hadoop的解決方案和默認的標準,如何將數據處理從Hive過渡到Spark SQL上來是咱們必需要掌握的。本章咱們將講解在Spark中操做Hive中的數據幾種方式oop
DataFrame&Dataset是Spark2.x中最核心的編程對象,Spark2.x中的子框架可以使用DataFrame或Dataset來進行數據的交互操做。本章將從DataFrame的產生背景、DataFrame對比RDD、DataFrame API操做等方面對DataFrame作詳細的編程開發講解性能
Spark SQL中的核心功能,可使用外部數據源很是方便的對存儲在不一樣系統上的不一樣格式的數據進行操做。本章將講解如何使用外部數據源來操做Hive、Parquet、MySQL中的數據以及綜合使用學習
本章將講解Spark的願景:寫更少的代碼、讀更少的數據、讓優化器自動優化程序大數據
本章使用Spark SQL對慕課網主站的訪問日誌進行各個維度的統計分析操做,涉及到的過程有:數據清洗、數據統計、統計結果入庫、數據的可視化、調優及Spark on YARN。經過本實戰項目將Spark SQL中的知識點融會貫通,達到觸類旁通的效果 ...優化
本章將列舉Spark SQL在工做中常常用到的方方方面的總結spa