上篇筆記作了一個簡單的瞭解,此次我們須要瞭解下谷歌的三篇論文Google FS、MapReduce、BigTable(必定搜下看看而後過幾遍)之後再來進行下邊的學習 。
各章概述,繼續薰陶
Hadoop部分
Hadoop的起源與背景知識java
1.大數據的核心問題: (1)數據的存儲:分佈式文件系統(分佈式存儲) (2)數據的計算:分佈式計算 2.概念:數據倉庫(Data warehouse) (1)咱們能夠把Hadoop和Spark當作是數據倉庫的一種實現方式 (2)數據倉庫就是一個數據庫,通常只作select (3)重要的一點:掌握數據倉庫的搭建過程 (4)數據倉庫又是一種OLAP的應用系統
3.概念:OLTP和OLAP (1)OLTP:online transaction processing聯機事務處理 (2)OLAP:online analytic processing聯機分析處理---->不會修改(刪除)數據 4.(最重要的內容)Google的3篇論文 (1)GFS:Google File System ---> HDFS ---> 解決數據的存儲 (2)MapReduce計算模型 ---> Hadoop MapReduce ---> 解決數據的計算 (3)BigTable大表 ---> Hbase是NoSQL數據庫
Apache Hadoop的體系結構(重要):實現Google的思想論文數據庫
1.HDFS:Hadoop Distributed File System (1)主從結構 (2)主節點:NameNode名稱節點 (3)從節點:DataNode數據節點 (4)SecondaryNameNode:第二名稱節點
2.Yarn:是一個容器,運行MapReduce程序 (1)主從結構 (2)主節點:ResourceManager 資源管理器 (3)從節點:NodeManager 節點管理器 3.HBase:須要單獨安裝 (1)主從結構 (2)主節點:HMaster (3)從節點:RegionServer
Hadoop2.X的安裝與配置編程
Hadoop有三種安裝模式 (1)本地模式 ---> 一臺Linux (2)僞分佈模式 ---> 一臺Linux (3)全分佈模式 ---> 三臺Linux (4)掌握面密碼登陸的原理和配置
Hadoop應用案例分析安全
(1)大數據背景下,企業級系統的架構的變化 (2)HBase進行日誌分析 (3)Hadoop在淘寶的應用 瞭解下
HDFS:Hadoop的分佈式文件系統,數據存儲架構
(1)操做HDFS:1.命令行 2.Java API 3.網頁:Web Console (2)原理:數據上傳的過程和數據下載的過程 (3)HDFS的底層實現:RPC和java動態代理 RPC:remote procedure call (4)高級特性: 1.回收站 2.快照snapshot:是一種備份 3.配額quota:名稱配額和空間配額 4.安全模式:safemode 5.權限
MapReduce:是一個計算模型,能夠用java來實現分佈式
1.Demo:經典的WordCount 2.重點:MapReduce處理數據的過程 3.原理:Yarn執行MapReduce的過程 4.MapReduce的高級特性 (1)序列化 (2)排序 (3)分區 (4)合併 5.MapReduce的核心:Shuffle(洗牌) 6.編程案例: (1)排序:order by (2)去重:distinct (3)多表查詢 (4)倒排索引
HBase:NoSQL數據庫工具
1.是基於Hadoop之上的NoSQL 2.體系結構:HMaster、RegionServer 3.搭建:本地模式、僞分佈模式、全分佈模式 4.操做:命令行、Java API、WebConsole 5.過濾器:實現複雜的查詢 6.HBase上的MapReduce
Hadoop的集羣和HAoop
1.HDFS的聯盟(Federation) 2.Hadoop的HA(High Avaiblity高可用性)
Storm:處理流式數據(實時計算)性能
集成Storm和Redis