「數據是驅動商業向前發展的核心,更是人類社會的將來。」前端
儘管將馬雲的這句話斷章取義地拿出來講會顯得唐突,但這話所表達的意思卻顯而易見。今天給你們分享的這40個教程,送給對將來抱有遠見的樂觀主義拼搏者,涵蓋了大數據入門的大多基礎知識,從Java基礎到Scala,Hadoop,Hbase,Mhout,Sqoop以及Spark等等。java
1. Linux 基礎入門(新版)算法
2. Vim編輯器sql
3. Git 實戰教程數據庫
4. MySQL 基礎課程編程
5. MongoDB 基礎教程設計模式
6. Redis基礎教程服務器
本教程的正確食用姿式:教程大都是公開免費資源(僅有一小撮須要會員權限)。區別於目前全部主流教程,該教程的核心就是動手!跟着文檔說明,在在線的Linux系統中一步一步地敲出基礎知識,各類有趣項目;走出只看書、看視頻卻不動手的禁區,你會比別人學的更快的,放心。多線程
1. Java編程語言(新版)架構
介紹 Java 語言基本語法、Java 平臺應用、 Java 的核心概念:JVM、JDK、JRE以及 java 面向對象思想。同時咱們會學到如何在系統中搭建 Java 開發環境,以及如何利用第三方工具進行 Java 程序的開發。
2. Java進階之設計模式
介紹經常使用的設計模式以及 Java 語言的實現實例來學習 java 設計模式。從中咱們能夠學習到不少類型的設計模式,其中包括工廠模式、抽象工廠模式、單例模式、適配器模式、觀察者模式、裝飾者模式等等。
3. JDK 核心 API
學習包括 java.lang 包,java.util 包,java.io 包,swing以及多線程的相關知識。
4. JDBC 入門教程
經過學習 JDBC 定義和架構,回顧 SQL 語法,搭建 JDBC 的環境,經過實例來深刻學習 JDBC。從中咱們將學習到如何用 java 鏈接到數據庫,並練習編寫了一個信息管理的程序,在此基礎上能夠提升本身的數據庫管理能力。
5. Java 8 新特性指南
介紹了 Lambda 表達式、函數式接口、Stream 流和 Date/Time API 等相關知識點。難度通常,適用於Java初學者或者是具備必定編程經驗的開發者。
1. Scala 開發教程
Scala 是一門多範式的編程語言,相似於 Java 。設計初衷是實現可伸縮的語言、並集成面向對象編程和函數式編程的各類特性。
2. Scala 專題教程 - Case Class和模式匹配
本教程側重介紹Scala的case class和pattern matching(模式匹配),這兩個程序結構對於處理樹結構的數據很是有幫助。你將能夠學習到模式匹配中的常量模式、通配模式和變量模式等。
主要介紹 Scala 中可讓函數庫調用變得更加方便的隱式變換和隱式參數,以及如何經過它們來避免一些繁瑣和顯而易見的細節問題。
主要介紹 Scala 中的抽象成員用法。在本教程中,你將能夠學到如何使用 Type 成員,以及抽象 vals 變量的初始化方法等要點。
本教程側重講解 Scala 中的 Extractor ,它能夠將數據模型和視圖邏輯分離,在 Scala 體系中充當相似於適配器的角色,是一種極具函數式的作法。你將能夠在課程中學到如何定義和設定 Extractor 。
24 點是一種數學遊戲,正如象棋、圍棋同樣是一種人們喜聞樂見的娛樂活動。 它始於何年何月已無從考究,但它以本身獨具的數學魅力和豐富的內涵正逐漸被愈來愈多的人們所接受。
1. Hadoop部署及管理
Hadoop是一款支持數據密集型分佈式應用並以Apache 2.0許可協議發佈的開源軟件框架,本實驗學習並實踐Hadoop系統的不一樣模式的部署,以及基本的系統使用與管理。
2. Hadoop入門進階課程
涵蓋了大數據領域常見的組件,如Hadoop,Mapreduce,HBase,Mahout,Pig,Hive,Sqoop等。首先從理論上進行介紹,而後讓您在實驗環境中一步步搭建,及相應的案例學習。
3. HBASE 教程
HBase是一個開源的非關係型分佈式數據庫(NoSQL),是Hadoop項目的一部分,運行於HDFS文件系統之上,爲 Hadoop 提供相似於BigTable 規模的服務。
一個經典的數據架構中,Hadoop 是處理複雜數據流的核心。數據每每是從許多分散的系統中收集而來,並導入 Hadoop 分佈式文件系統(HDFS)中,經過 MapReduce 或者其餘基於MapReduce 封裝的語言進行處理,將這些已通過濾、轉換和聚合過的結果導出到一個或多個外部系統中。
Flume 能夠從多個數據源獲取數據,把這些數據傳給遠程主機(多是一對多或流水線模型 中的多個目標),再把它們傳給多個目的端。儘管 Flume 提供了開發自定義數據源和數據目的端的編程 API,但它本來就支持許多常見的場景。
6. Kafka快速上手教程
介紹 Kafka 及實現原理,而後講解 Kafka 集成 Flume ,KafkaOffsetMonitor 安裝及使用,案例演示,學習完本教程,你將對kafka有深刻的瞭解,很快上手。
利用實驗樓提供的 Hadoop 環境,對一本武俠小說的文集進行簡單的 WordCount 詞頻統計,從而獲得該書中出現頻次最高的人名。須要必定的 Hadoop 和 MapReduce 基礎。
對於圖處理,hadoop的mapreduce提供一層合併,這代表咱們不得不像剝洋蔥同樣來處理圖數據,Giraph 是 Google Pregel 的一種開源實現。本教程將基於hadoop平臺實現Giraph 分佈式系統中的圖處理。
Spark進入2.0時代,引入了不少優秀特性,性能上有較大提高,API更易用。在「編程統一」方面很是驚豔,實現了離線計算和流計算API的統一,實現了Spark sql和Hive Sql操做API的統一。真正作到了「更簡單、更快速、更智能」!
9個實驗帶你親身體驗Spark大數據分析的魅力,最快的上手教程,最新的技術領域,最多的動手實踐。
GraphX經過RDD的擴展,在其中引入了一個新的圖抽象,即頂點和邊帶有特性的有向多重圖,提供了一些基本運算符和優化了的Pregel API,來支持圖計算。
咱們將基於 Spark Streaming 流式計算框架,簡單地實現一個相似於百度分析的系統。本教程源自圖靈教育的《Spark 最佳實踐》第6章第3節,感謝圖靈教育受權實驗樓發佈。
針對飛行準點率數據集,經過一些簡單的分析任務來學習 DataFrame 的由來、構建方式以及一些經常使用操做。在本教程中,你能夠了解到 Spark 生態體系中,核心的 RDD 與 DataFrame 之間的區別和聯繫。
經過更加深刻的講解,使用真實的 SFPD 數據集,結合實際問題的分析過程,帶你學習 DataFrame 的建立方式、經常使用操做、UDF 自定義函數 和重分區相關知識。
Spark Streaming 是 Spark 引擎的一種擴展,適用於實時處理流式數據。本教程將帶你學習 Spark Streaming 的工做機制,瞭解 Streaming 應用的基本結構,以及如何在 Streaming 應用中附加 SQL 查詢。
你將能夠學習到 Spark SQL 的基礎概念,瞭解如何利用 SQL Context 及相關的 API 進行統計分析。最後還將經過一個分析股票價格與石油價格關係的實例,進一步學習如何利用 Spark SQL 分析數據。
你將能夠學習到 Spark 的機器學習庫—— MLlib 的相關知識,瞭解 MLlib 與 ML 之間的區別和聯繫,掌握 MLlib 中的幾個基本數據類型。同時,還將經過一個電影推薦的實例,講解如何利用機器學習算法解決實際問題。
學習 Spark 平臺中對於 R 語言的支持前端——SparkR。教程將會講解到如何在 SparkR 中建立和操做 DataFrame、如何運行 SQL 查詢,以及如何利用機器學習相關的 API。
將經過一個航班數據分析實例來學習 Spark 綜合技巧和數據可視化技術。在航班數據分析實驗中,能夠學習到如何使用 OpenRefine 進行簡單的數據清洗,以及如何經過 Spark 提供的 DataFrame、 SQL 和機器學習框架等工具,對航班起降的記錄數據進行分析,嘗試找出形成航班延誤的緣由,以及對航班延誤狀況進行預測。
介紹如何利用 eBay 上的拍賣數據進行數據分析,實現經過數據判斷拍賣最終是否能夠成功交易和預測最終成交的價格。
咱們將基於 Spark Streaming 流式計算框架,簡單地實現一個相似於百度分析的系統。本課教程源自圖靈教育的《Spark 最佳實踐》第6章第3節,感謝圖靈教育受權實驗樓發佈。
模式挖掘也叫關聯規則,其實就是從大量的數據中挖掘出比較有用的數據,挖掘頻繁項。好比說超市有大量的購物數據,從而能夠根據用戶的購物數據找到哪些商品之間關聯性比較大。進行關聯推銷產品。也能夠進行用戶推薦。
使用Spark MLlib對Twitter上的流數據進行情感分析,而且利用Python的工具包basemap可視化美國不一樣的州對於曾經的總統候選人希拉里及川普的情感分析結果,經過地理信息可視化咱們可直觀的感覺到這兩位候選人的受歡迎程度。
使用Scoket來模擬用戶瀏覽商品產生實時數據,數據包括用戶當前瀏覽的商品以及瀏覽商品的次數和停留時間和是否收藏該商品。使用Spark Streaming構建實時數據處理系統,來計算當前電商平臺最受人們關注的商品是哪些。
日誌在計算機系統中是一個很是普遍的概念,任何程序都有可能輸出日誌:操做系統內核、各類應用服務器等等。日誌包含不少有用的信息,例如訪問者的 IP、訪問的時間、訪問的目標網頁、來源的地址以及訪問者所使用的客戶端的 UserAgent 信息等,分析日誌能幫助企業營銷作出決策
7. 大數據帶你挖掘打車的祕籍
在哪些地方出租車更容易打到?在何時更容易打到出租車?本教程將基於某市的出租車行駛軌跡數據,帶你學習如何應用Spark SQL和機器學習相關技巧,而且經過數據可視化手段展示分析結果。
完。更多相關教程,歡迎你們到實驗樓(www. shiyanlou.com)來學習哦!
今日推薦