米兜開始送書啦,活動持續21天

關注米兜Java.md

壓抑了這麼久了,是時候來一啵活動了。

  爲了感謝朋友們一直以來的支持,今天米兜獲得一位既是主編也是粉絲的支持,將贈送來自這位朋友編寫的一本書籍《Hive數據倉庫企業級應用》。此書真心推薦朋友們閱讀。數據庫

本次贈書活動規則:

第一階段:11月2日-11月8日,將從點擊本文在看且轉發朋友圈的朋友中抽取一位,記得添加文末做者羣哦,實體書包郵到家。

第二階段:11月2日-11月15日,將從轉發本文的朋友中,朋友圈點贊最多的朋友中抽取一位,記得添加文末做者羣哦,實體書包郵到家。[若是點贊大於等於50的朋友多餘5位,將抽出兩位朋友]

第三階段:11月8日-11月22日,將抽取兩位朋友,記得添加文末做者羣哦,實體書包郵到家。活動規則,待第一階段結束後公佈。

file

  移動互聯、電子商務、社交網絡大大拓展了互聯網的疆界和應用領域,咱們正處在一個數據爆炸性增加的時代,大量的數據對人類的數據駕馭能力提出了新的挑戰和機遇。就在這時,人們提出了大數據的思想,大數據是指那些超過傳統數據庫系統處理能力的數據。其數據規模和傳輸速度要求很高,或者其結構不適合本來的數據庫系統。可是咱們爲了獲得它其中的價值,就不得不使用一些技術手段去處理它。大數據分析常和雲計算聯繫在一塊兒,由於實時的大型數據集分析須要MapReduce同樣的計算框架來向不一樣機架,甚至是不一樣數據中心中的電腦分配工做。正是因爲Hadoop中的MR框架纔可讓人們處理TB級的數據。微信

file
file
file
file

  正如上面的漫畫,因爲MapReduce框架只有專業的開發人員纔可使用,SQL的人就沒辦法去使用該框架處理一些數據,所以人們發明了Hive的組件,Hive也是Apache的頂級項目,它底層的計算引擎是MR(離線計算框架)或者是Tez(基於Hadoop YARN之上的DAG計算框架),人們可使用簡單的類SQL語句就能夠跑出MR程序,從而來完成複雜的數據處理工做,Hive讓更多的人能夠去處理大數據,而且讓這份複雜的工做再也不成爲很困難的事情。Hive是一種底層封裝了Hadoop的數據倉庫處理工具,使用類SQL的HiveQL語言實現數據查詢,全部Hive的數據都存儲在Hadoop兼容的文件系統(例如,Amazon S三、HDFS)中。Hive在加載數據過程當中不會對數據進行任何的修改,只是將數據遷移到HDFS設定的目錄下。Hive的設計特色以下,網絡

  1. 支持建立索引,優化數據查詢。
  2. 不一樣的存儲類型,例如,純文本文件、Hbase中的文件。
  3. 將元數據保存在關係數據庫中,大大減小了在查詢過程當中執行語義檢查的時間。
  4. 能夠直接使用存儲在Hadoop文件系統中的數據。
  5. 內置大量用戶函數UDF來操做時間、字符串和其餘的數據挖掘工具,支持用戶擴展UDF函數來完成內置函數沒法實現的操做。
  6. 類SQL的查詢方式,將SQL查詢轉換爲MapReduce的job在Hadoop集羣上執行。

  最後,介紹一下小編最近寫的一本書,叫《Hive數據倉庫企業級應用》。架構

  在介紹這本書以前,首先跟你們分享一下小編寫這本書的原因。我也不知道是一個多麼幸運的機會,讓小牛和電子社的老師找到我。答應寫書以後,已經數不清多少個夜晚在加班以後回去和週末還要繼續創做,在我寫這本書的過程中,我深深體會到了本身的想法仍是受言語和表達的束縛。在堅持了一年多的時間裏,電子版校對和紙質版的校對不可勝數,曾經由於內容以及表達的問題,被返稿了屢次,也一度想要放棄,可是我相信堅持下去就會獲得想要的結果。就在歷時大概快兩年的時間以後,這本書總算接近了尾聲,看到了本身想要的結果。框架

  說了這麼多,咱們來看一下這本書的內容,本書主要的出發點是爲了讓更多的人去學會Hive,將實戰與原理相結合。從最基礎的語法講起,
實戰方面共分爲了24章去講解,從最基礎的HQL語法到HQL優化,以及最後的案例實戰,整個過程都是含有實戰性代碼以及運行結果。機器學習

  原理部分的關鍵是最後的Hive的源碼剖析,讓廣大讀者能夠跟隨小編去了解Hive的運行機理,方便咱們更深刻的瞭解Hive的運行機制。更加劇要的是,咱們能夠從中瞭解到某一個組件之因此這麼被看好,它的奧妙所在。分佈式

  全書大體包含的內容以下:函數

-------------------------------------------------Hive介紹篇--------------------------------------工具

  • 第1章 Hive基礎知識:Hadoop、Hive概述
  • 第2章 Hive配置

-------------------------------------------------Hive入門篇--------------------------------------oop

  • 第3章 Hive的基本操做
  • 第4章 HiveQL:數據定義(數據庫和表)
  • 第5章 HiveQL數據操做
  • 第6章 HiveQL:查詢(select、where、group by、join、order by和sort by、distribute by、cluster by、Hive類型轉換、抽樣查詢、UNION ALL)
  • 第7章 HiveQL:視圖
  • 第8章 HiveQL:索引
  • 第9章 模式設計

-------------------------------------------------Hive進階篇-------------------------------------

  • 第10章 調優
  • 第11章 其餘文件格式和壓縮方法
  • 第12章 開發
  • 第13章 函數(發現和描述、調用、聚合、表生成函數)
  • 第14章 Streaming(介紹及代碼編寫、使用分佈式內存)
  • 第15章 自定義Hive文件和記錄格式(SequenceFile、RCFile、CSV和TSV SerDe)

-------------------------------------------------Hive強化篇--------------------------------------

  • 第16章 HCatalog(介紹、命令行、架構)
  • 第17章 Hive和Oozie整合(Oozie簡介、Oozie多種操做、Oozie Coordinator使用)
  • 第18章 Hive和亞馬遜網絡服務系統(AWS)
  • 第19章 存儲處理程序和NoSQL(Storage Handler Background、HiveStorageHandler、Cassandra、DynamoDB)

-------------------------------------------------Hive實戰篇--------------------------------------

  • 第20章 Hive大數據分析之戰
  • 第21章 Hive廣告日誌數據開發
  • 第22章 Hive電商數據開發
  • 第23章 Hive數據分析及定時任務調度
  • 第24章 Hive電視收視率統計項目開發

-----------------------------------------------Hive源碼剖析篇---------------------------------

  • 第25章 Hive源碼剖析(SemanticAnalyzer、MapRedTask、ExecDriver、源碼剖析圖)

創新點:源碼部分從讀取源碼時候的環境搭建,而後每一步的函數調用,會跟隨小編的思路,瀏覽遍Hive的源碼。實戰部分根據幾個企業級的真實數據以及真實場景去作的整個項目,能夠跟隨小編了解到企業中Hive的應用場景是怎麼樣的。

適讀人羣:主要偏向於想要了解源碼、想要學習企業中開發的流程、對大數據感興趣而且想要學習的人。

最後,《Hive數據倉庫企業級應用》是小編要上的一本書,感興趣的朋友能夠進行關注。

專一於大數據、機器學習、雲計算方面的研究,感興趣的小夥伴能夠掃碼交流,一塊兒組建技術交流羣,本書出版以後,將會逐一郵寄給幸運的朋友。如下是做者我的微信和技術交流羣,歡迎你們踊躍加入。

技術交流羣 做者我的微信
file file

@END

歡迎關注米兜Java,一個注在共享、交流的Java學習平臺。

file

相關文章
相關標籤/搜索