Hive 基礎入門

Hive的官方網站:數據庫

      https://hive.apache.org/apache

Hive簡介:架構

      Hive 是基於Hadoop 的一個數據倉庫工具,能夠將結構化的數據文件映射成一張表,並提供類SQL查詢功能。函數

      Hive在企業中做爲一種工做,能夠很容易的對數據進行ETL。工具

      Hive能夠對各類各樣的數據進行一種結構化的查詢。(按照必定結構進行查詢)。oop

      Hive 處理的數據都是存在 HDFS 之上,而且可以與 HBase 進行集成。學習

      分析數據底層的實現都是 MapReduce ,運行都是運行在 yarn 上邊。大數據

Hive的用途:  網站

      數據的查詢、數據的管理。spa

ETL簡介 :

      E : 提取數據

      T:轉換數據

      L:加載數據

HQL:

      HQL 就是 Hive 查詢使用的語句。

Hive本質 :

      就是將 HQL 語句轉化爲 MapReduce 。

Hive 和 Hadoop 之間的關聯:

      都是使用 HDFS 進行數據存儲。

      都是使用 yarn 進行資源管理。

      都是使用 MapReduce 進行數據處理。

Hive的執行方式:

      Hive 就是將數據映射成一個關係型數據庫(RDBMS)的表。而執行方式就是 SQL 語句。

      執行SQL語句,底層就會自動的將語句翻譯爲MapReduce程序,提交給 YARN 去執行。

Hive 在 Hadoop 生態系統中的地位:

      

Hive 的架構:

     

Hive的優勢及使用場景

優勢:

  1. 操做接口採用類SQL語法,提供快速開發的能力(簡單、容易上手);
  2. 避免了去寫MapReduce,減小開發人員的學習成本;
  3. 統一的元數據管理,可與impala/spark等共享元數據;
  4. 易擴展(HDFS+MapReduce:能夠擴展集羣規模;支持自定義函數

使用場景:

  1. 數據的離線處理;好比:日誌分析,海量結構化數據離線分析…
  2. Hive的執行延遲比較高,所以hive經常使用於數據分析的,對實時性要求不高的場合;
  3. Hive優點在於處理大數據,對於處理小數據沒有優點,由於Hive的執行延遲比較高。
相關文章
相關標籤/搜索