怎麼學大數據
大數據指不用隨機分析法這樣捷徑,而採用全部數據進行分析處理的方法。互聯網時代每一個企業天天都要產生龐大的數據,對數據進行儲存,對有效的數據進行挖掘分析並應用須要依賴於大數據開發。java
Linux&&Hadoop生態體系
-
Linux大綱
1) Linux的介紹,Linux的安裝:VMware Workstation虛擬軟件安裝過程、CentOS虛擬機安裝過程2) 瞭解機架服務器,採用真實機架服務器部署linux3) Linux的經常使用命令:經常使用命令的介紹、經常使用命令的使用和練習4) Linux系統進程管理基本原理及相關管理工具如ps、pkill、top、htop等的使用;5) Linux啓動流程,運行級別詳解,chkconfig詳解6) VI、VIM編輯器:VI、VIM編輯器的介紹、VI、VIM扥使用和經常使用快捷鍵7) Linux用戶和組帳戶管理:用戶的管理、組管理8) Linux磁盤管理,lvm邏輯卷,nfs詳解9) Linux系統文件權限管理:文件權限介紹、文件權限的操做10) Linux的RPM軟件包管理:RPM包的介紹、RPM安裝、卸載等操做11) yum命令,yum源搭建12) Linux網絡:Linux網絡的介紹、Linux網絡的配置和維護13) Shell編程:Shell的介紹、Shell腳本的編寫14) Linux上常見軟件的安裝:安裝JDK、安裝Tomcat、安裝mysql,web項目部署
-
大型網站高併發處理
1) 第四層負載均衡a) Lvs負載均衡i. 負載算法,NAT模式,直接路由模式(DR),隧道模式(TUN)b) F5負載均衡器介紹
2) 第七層負載均衡a) Nginxb) Apache3) Tomcat、jvm優化提升併發量4) 緩存優化a) Java緩存框架i. Oscache,ehcacheb) 緩存數據庫i. Redis,Memcached5) Lvs+nginx+tomcat+redis|memcache構建二層負載均衡千萬併發處理6) Haproxy7) Fastdfs小文件獨立存儲管理8) Redis緩存系統a) Redis基本使用b) Redis sentinel高可用c) Redis好友推薦算法
-
Lucene課程
1) Lucene介紹2) Lucene 倒排索引原理3) 建索引 IndexWriter4) 搜索 IndexSearcher5) Query6) Sort和 過濾 (filter)7) 索引優化和高亮
-
Solr課程
1) 什麼是solr2) 爲何工程中要使用solr3) Solr的原理4) 如何在tomcat中運行solr5) 如何利用solr進行索引與搜索6) solr的各類查詢7) solr的Filter8) solr的排序9) solr的高亮10) solr的某個域統計11) solr的範圍統計12) solrcloud集羣搭建
-
Hadoop離線計算大綱
1) Hadoop生態環境介紹2) Hadoop雲計算中的位置和關係3) 國內外Hadoop應用案例介紹4) Hadoop 概念、版本、歷史5) Hadoop 核心組成介紹及hdfs、mapreduce 體系結構6) Hadoop 的集羣結構7) Hadoop 僞分佈的詳細安裝步驟8) 經過命令行和瀏覽器觀察hadoop9) HDFS底層工做原理10) HDFS datanode,namenode詳解11) Hdfs shell12) Hdfs java api13) Mapreduce四個階段介紹14) Writable15) InputSplit和OutputSplit16) Maptask17) Shuffle:Sort,Partitioner,Group,Combiner18) Reducer19) 二次排序20) 倒排序索引21) 最優路徑22) 電信數據挖掘之-----移動軌跡預測分析(中國棱鏡計劃)23) 社交好友推薦算法24) 互聯網精準廣告推送 算法25) 阿里巴巴天池大數據競賽 《天貓推薦算法》案例26) Mapreduce實戰pagerank算法27) Hadoop2.x集羣結構體系介紹28) Hadoop2.x集羣搭建29) NameNode的高可用性(HA)30) HDFS Federation31) ResourceManager 的高可用性(HA)32) Hadoop集羣常見問題和解決方法33) Hadoop集羣管理
-
分佈式數據庫Hbase
1) HBase與RDBMS的對比2) 數據模型3) 系統架構4) HBase上的MapReduce5) 表的設計6) 集羣的搭建過程講解7) 集羣的監控8) 集羣的管理9) HBase Shell以及演示10) Hbase 樹形表設計11) Hbase 一對多 和 多對多 表設計12) Hbase 微博 案例13) Hbase 訂單案例14) Hbase表級優化15) Hbase 寫數據優化16) Hbase 讀數據優化
-
數據倉庫Hive
1) 數據倉庫基礎知識2) Hive定義3) Hive體系結構簡介4) Hive集羣5) 客戶端簡介6) HiveQL定義7) HiveQL與SQL的比較8) 數據類型9) 外部表和分區表10) ddl與CLI客戶端演示11) dml與CLI客戶端演示12) select與CLI客戶端演示13) Operators 和 functions與CLI客戶端演示14) Hive server2 與jdbc15) 用戶自定義函數(UDF 和 UDAF)的開發與演示16) Hive 優化
-
數據遷移工具Sqoop
1) 介紹 和 配置Sqoop2) Sqoop shell使用3) Sqoop-importa) DBMS-hdfsb) DBMS-hivec) DBMS-hbase4) Sqoop-export
-
Flume分佈式日誌框架
1) flume簡介-基礎知識2) flume安裝與測試3) flume部署方式4) flume source相關配置及測試5) flume sink相關配置及測試6) flume selector 相關配置與案例分析7) flume Sink Processors相關配置和案例分析8) flume Interceptors相關配置和案例分析9) flume AVRO Client開發10) flume 和kafka 的整合
-
Zookeeper開發
1) Zookeeper java api開發2) Zookeeper rmi高可用分佈式集羣開發3) Zookeeper redis高可用監控實現4) Netty 異步io通訊框架5) Zookeeper實現netty分佈式架構的高可用
-
某一線公司的真實項目
項目技術架構體系:a) Web項目和雲計算項目的整合b) Flume經過avro實時收集web項目中的日誌c) 數據的ETLd) Hive 批量 sql執行e) Hive 自定義函數f) Hive和hbase整合。g) Hbase 數據支持 sql查詢分析h) Mapreduce數據挖掘i) Hbase dao處理j) Sqoop 在項目中的使用。k) Mapreduce 定時調用和監控
大數據計算框架體系
-
Storm基礎
- Storm是什麼
- Storm架構分析
- Storm編程模型、Tuple源碼、併發度分析
- Maven環境快速搭建
- Storm WordCount案例及經常使用Api
- Storm+Kafka+Redis業務指標計算
- Storm集羣安裝部署
- Storm源碼下載編譯
-
Storm原理
- Storm集羣啓動及源碼分析
- Storm任務提交及源碼分析
- Storm數據發送流程分析
- Strom通訊機制分析淺談
- Storm消息容錯機制及源碼分析
- Storm多stream項目分析
- Storm Trident和傳感器數據
- 實時趨勢分析
- Storm DRPC(分佈式遠程調用)介紹
- Storm DRPC實戰講解
- 編寫本身的流式任務執行框架
-
消息隊列kafka
- 消息隊列是什麼
- kafka核心組件
- kafka集羣部署實戰及經常使用命令
- kafka配置文件梳理
- kafka JavaApi學習
- kafka文件存儲機制分析
- kafka的分佈與訂閱
- kafka使用zookeeper進行協調管理
-
Redis
- nosql介紹
- redis介紹
- redis安裝
- 客戶端鏈接
- redis的數據功能
- redis持久化
- redis應用案例
-
zookeper
- Zookeeper簡介
- Zookeeper集羣部署
- zookeeper核心工做機制
- Zookeeper命令行操做
- Zookeeper客戶端API
- Zookeeper應用案例
- Zookeeper原理補充
-
日誌告警系統項目實戰
- 需求分析
- 架構及功能設計
- 數據採集功能開發及常見問題
- 數據庫模型設計及開發
- Storm程序設計及功能開發
- 集成測試及運行
- 優化升級及常見問題
-
猜你喜歡推薦系統實戰
- 推薦系統基礎知識
- 推薦系統開發流程分析
- mahout協同過濾Api使用
- Java推薦引擎開發實戰
- 推薦系統集成運行
雲計算體系
-
Docker 課程
- 基本介紹
- vm docker 對比
- docker基本架構介紹
- unfs cgroup namespace
- 進程虛擬化 輕量級虛擬化
- docker 安裝
- docker 鏡像製做
- docker 經常使用命令
- docker 鏡像遷移
- docker pipework(i.openvswitch)
- docker weave
-
ReactJS框架
- 虛擬化介紹,虛擬化適用場景等等
- Qemu Libvirt & KVM
- 安裝KVM, Qemu, Libvirt
- QEMU-KVM: 安裝第一個能上網的虛擬機
- Kvm虛擬機 nat,網橋基本原理
- kvm虛擬機克隆
- kvm虛擬機vnc配置
- kvm虛擬機擴展磁盤空間
- Kvm快照
- Kvm 遷移
- Java,python,c語言編程控制kvm
- 構建本身的虛擬雲平臺
-
AngularJS框架
- openstack介紹和模塊基本原理分析
- openstack多節點安裝部署(a.採用centos6.x系統)
- Keystone基本原理
- glance
- Cinder
- Swift
- Neutron
- Openstack api 二次開發
機器學習&&深度學習
-
R語言&&機器學習
1) R語言介紹,基本函數,數據類型2) 線性迴歸3) 樸素貝葉斯聚類4) 決策樹分類5) k均值聚類a) 離羣點檢測6) 關聯規則探索7) 神經網絡
-
Mahout機器學習
1) 介紹爲何使用它,它的前景a) 簡單介紹Mahoutb) 簡單介紹機器學習c) 實例演示Mahout單機推薦程序2) 配置安裝(hadoop2.x版本的)編譯安裝步驟說明a) 命令行中測試運行協同過濾概念3) 推薦a) 講解基於用戶的協同過濾b) 講解基於物品的協同過濾4) 分類a) 分類概念b) 分類的應用及Mahout分類優點c) 分類和聚類、推薦的區別d) 分類工做原理e) 分類中概念術語f) 分類項目工做流g) 如何定義預測變量h) 線性分類器的介紹,及貝葉斯分類器i) 決策樹分類器的介紹,及隨機森林分類器j) 如何使用貝葉斯分類器和隨機森林分類器的代碼展現5) 聚類a) 聚類概念b) 聚類步驟流程c) 聚類中的距離測度d) 講解K-means聚類e) K-means聚類算法展現f) 聚類其餘算法g) 介紹TF-IDFh) 歸一化i) 微博聚類案例
-
項目實戰
項目技術架構體系:a) 分佈式平臺 Hadoop,MapReduceb) 數據採集 Flumec) 數據清洗 ETLd) 數據庫 Hbase,Redise) 機器學習 Mahout