Hive 基礎入門

時間 2019-11-12

標籤 hive 基礎入門欄目 Hadoop 简体版

原文原文鏈接

Hive的官方網站：數據庫

　　　　　　https://hive.apache.org/apache

Hive簡介：架構

　　　　　　Hive 是基於Hadoop 的一個數據倉庫工具，能夠將結構化的數據文件映射成一張表，並提供類SQL查詢功能。函數

　　　　　　Hive在企業中做爲一種工做，能夠很容易的對數據進行ETL。工具

　　　　　　Hive能夠對各類各樣的數據進行一種結構化的查詢。（按照必定結構進行查詢）。oop

　　　　　　Hive 處理的數據都是存在 HDFS 之上，而且可以與 HBase 進行集成。學習

　　　　　　分析數據底層的實現都是 MapReduce ，運行都是運行在 yarn 上邊。大數據

Hive的用途：　　網站

　　　　　　數據的查詢、數據的管理。spa

ETL簡介：

　　　　　　E : 提取數據

　　　　　　T：轉換數據

　　　　　　L：加載數據

HQL：

　　　　　　HQL 就是 Hive 查詢使用的語句。

Hive本質 :

　　　　　　就是將 HQL 語句轉化爲 MapReduce 。

Hive 和 Hadoop 之間的關聯：

　　　　　　都是使用 HDFS 進行數據存儲。

　　　　　　都是使用 yarn 進行資源管理。

　　　　　　都是使用 MapReduce 進行數據處理。

Hive的執行方式：

　　　　　　Hive 就是將數據映射成一個關係型數據庫（RDBMS）的表。而執行方式就是 SQL 語句。

　　　　　　執行SQL語句，底層就會自動的將語句翻譯爲MapReduce程序，提交給 YARN 去執行。

Hive 在 Hadoop 生態系統中的地位：

Hive 的架構：

Hive的優勢及使用場景

優勢：

操做接口採用類SQL語法，提供快速開發的能力(簡單、容易上手)；
避免了去寫MapReduce，減小開發人員的學習成本；
統一的元數據管理，可與impala/spark等共享元數據；
易擴展(HDFS+MapReduce：能夠擴展集羣規模；支持自定義函數

使用場景：

數據的離線處理；好比：日誌分析，海量結構化數據離線分析…
Hive的執行延遲比較高，所以hive經常使用於數據分析的，對實時性要求不高的場合；
Hive優點在於處理大數據，對於處理小數據沒有優點，由於Hive的執行延遲比較高。

1. hive基礎入門
2. HIVE基礎入門
3. Hadoop基礎入門
4. spark基礎入門
5. 【Hive】Hive 基礎
6. kudu基礎入門
7. Oozie基礎入門
8. Spark SQL入門基礎
9. Apache Sqoop 基礎（入門）
10. HBase基礎入門
更多相關文章...
• Memcached入門教程 - NoSQL教程
• Kotlin 基礎語法 - Kotlin 教程
• YAML 入門教程
• Java Agent入門實戰（一）-Instrumentation介紹與使用

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。