Hive的官方網站:數據庫
https://hive.apache.org/apache
Hive簡介:架構
Hive 是基於Hadoop 的一個數據倉庫工具,能夠將結構化的數據文件映射成一張表,並提供類SQL查詢功能。函數
Hive在企業中做爲一種工做,能夠很容易的對數據進行ETL。工具
Hive能夠對各類各樣的數據進行一種結構化的查詢。(按照必定結構進行查詢)。oop
Hive 處理的數據都是存在 HDFS 之上,而且可以與 HBase 進行集成。學習
分析數據底層的實現都是 MapReduce ,運行都是運行在 yarn 上邊。大數據
Hive的用途: 網站
數據的查詢、數據的管理。spa
ETL簡介 :
E : 提取數據
T:轉換數據
L:加載數據
HQL:
HQL 就是 Hive 查詢使用的語句。
Hive本質 :
就是將 HQL 語句轉化爲 MapReduce 。
Hive 和 Hadoop 之間的關聯:
都是使用 HDFS 進行數據存儲。
都是使用 yarn 進行資源管理。
都是使用 MapReduce 進行數據處理。
Hive的執行方式:
Hive 就是將數據映射成一個關係型數據庫(RDBMS)的表。而執行方式就是 SQL 語句。
執行SQL語句,底層就會自動的將語句翻譯爲MapReduce程序,提交給 YARN 去執行。
Hive 在 Hadoop 生態系統中的地位:
Hive 的架構: