大數據導論

01-大數據導讀

 01) javaEE與大數據的區別(參考:附件資料\JavaEE大數據區別.txt)
        01) javaEE業務開發(品優購電商)
            電商系統架構.png
        02) 大數據的體系說明(抖音推薦系統 電商精準推薦系統)
            大數據架構處理流程.jpg
    02) 大數據學習的建議:
        01) 理解框架的功能和使用場景
        02) 熟練使用(集羣安裝 編程開發  API使用  問題解決)
        03) 框架內部的運行機制(原理)
        04) 分析源碼(驗證運行原理)
        05) 給開源貢獻代碼:  apache  committer :  fink    github
02-大數據離線課程介紹
    01) 圍繞hadoop生態圈
    02) 圍繞大數據處理主線
        01) 數據採集
        02) 數據存儲
        03) 數據預處理
        04) 數據分析(數據倉庫hive)
        05) 數據應用
    03) 學習技術路線:
        01) hadoop中的HDFS(分佈式文件存儲系統)
        02) hadoop中的MapReduce(分佈式計算框架)
        03) hive (使用sql進行數據分析的數據倉庫) hbase(基於hadoop的分佈式數據庫) zookeeper(大數據中的基礎組件,分佈式協調服務)
        04) 離線項目--電商網站日誌分析系統:
        05) 離線輔助工具集(flume  sqoop oozie azkaban等技術)
        06) spark基於內存計算: sparkCore(離線處理) sparkSql(sql分析) sparkStreaming(實時計算)
        07) flink 流式處理 批處理  druid 等
        07) 機器學習: Mahout  sparkMLlib  Python 機器學習庫 天然語言處理等
03-今日課程內容大綱
    01) 大數據導論(理論)
        數據分析介紹及步驟
        數據分析的挑戰
        Internet of  everything  IOT(物聯網)
        數據集市(賣數據的市場)
    02) zookeeper
        zookeeper介紹及集羣搭建
        zookeeper shell命令行客戶端操做  javaAPI操做
        zookeeper數據模型  zookeeper選舉機制

04-數據分析的定義和做用(離線、實時、機器學習)
    01) 數據分析概述
        01) 定義: 經過適當的數學方法統計方法把隱藏在數據中的規律總結提取出來的過程(從數據中淘金的過程)
        02) 做用:商業領域,幫助企業提取數據中蘊含的商業價值,幫助企業進行判斷和決策, 提升企業的競爭力.
        03) 舉例:餐飲行業數據分析案例
    02) 分析種類:
        01) 離線分析(NBA球員統計 股票k線)
            分析過去一段時間產生的數據
        02) 實時分析(雙十一大屏展現成交量 商品成交量(指標))
            分析當前實時產生的數據
        03) 機器學習(股票量化交易  推薦系統)
            使用數據模型(數學建模)對將來進行預測(數據挖掘)
        大數據的三個技術方向,須要學習三個技術棧,公司都是三個技術棧都存在
        課程安排: 離線 ----> 實時 -----> 機器學習---->結合應用(風控系統   短視頻推薦系統   廣告精準推薦系統    用戶畫像  數據倉庫等)
05-數據分析的基本步驟(重要)
    01) 明確分析的目標和思路
        目的指引分析的方向, 思路指導如何開展數據分析
        分析思路有一些營銷管理類的理論支撐(附件資料\數據分析方法論)
    02) 數據採集
        數據庫 互聯網(爬蟲) 國家行業等公開數據  開展市場調查    社工庫
    03) 數據預處理
        通過清洗 轉換等動做把非結構化的數據 髒數據變成格式統一 規則良好的結構化數據
        舉例: 缺失值  異常值  數據變換(函數變換)  數據集成等
    04) 數據分析
        根據業務需求及分析目標, 經過適當的數據分析方法 數據分析工具找出數據中隱藏的規律
        數據挖掘: 高大上的數據分析,主要是: 分類 聚類 關聯規則 時序模式 預測 智能推薦 等
    05) 數據應用
        數據可視化展現 數據報表 智能決策等

06-科技發展的挑戰(分佈式、海量數據處理場景)
    01) 網站架構演進
        單體架構 ----> 分佈式集羣架構   參考: javaEE和大數據區別.png
    02) 分佈式 集羣 的概念
        參考: https://kb.cnblogs.com/page/503317/
        分佈式: 分佈式是指將不一樣的業務分佈在不一樣的地方獨立部署運行
        集羣: 而集羣指的是將幾臺服務器集中在一塊兒,實現同一業務
        聯繫: 分佈式中的每個節點,均可以作集羣. 而集羣並不必定就是分佈式的
        舉例:
            小飯店原來只有一個廚師,切菜洗菜備料炒菜全乾.後來客人多了,
            廚房一個廚師忙不過來,又請了個廚師,兩個廚師都能炒同樣的菜,這兩個廚師的關係是集羣.
            爲了讓廚師專心炒菜,把菜作到極致,又請了個配菜師負責切菜,備菜,備料,廚師和配菜師的關係是分佈式,
            一個配菜師也忙不過來了,又請了個配菜師,兩個配菜師關係是集羣
    03) 海量數據場景下的挑戰
        01) 海量數據的存儲問題-----> 分佈式存儲(hadoop中hdfs)
        02) 海量數據的計算問題-----> 分佈式計算(hadoop中mapreduce)
07-什麼是大數據
    01) 大數據相關理論
    02) 大數據相關的技術
    03) 大數據相關的實踐
    04) 大數據引發的變革:
        思惟的變革
        商業模式變革
        管理變革
    參考: 附件資料\大數據時代.pdf


java

相關文章
相關標籤/搜索