Hive的初步瞭解

時間 2020-08-10

標籤 hive 初步瞭解欄目 Hadoop 简体版

原文原文鏈接

由於工做中需求到對hive內的數據進行操做，因此瞭解一下hive數據庫的相關知識，防止本身刪庫跑路sql

hive的數據類型

整型：數據庫

TINYINT 微整型 1字節性能

SMALLINT 小整型 2字節spa

INT 整型 4字節code

BIGINT 8字節blog

布爾型：索引

BOOLEAN TRUE/FALSE字符串

浮點型：get

FLOAT 單精度spark

DOUBLE 雙精度

字符串類型：

STRING 不設定長度

複合型數據類型：

ARRAY 一組有序字段，字段的類型必須相同

MAP 一組無序的鍵值對

STUCTS 一組命名的字段

1 CREATE TABLE complex(
2 
3          col1 ARRAY< INT>,
4 
5          col2 MAP< STRING,INT>,
6 
7          col3 STRUCT< a:STRING,b:INT,c:DOUBLE>
8 
9 )

hive的存儲類型

hive存儲數據主要有兩種方式列存儲和行存儲

hive經常使用的存儲格式

1.textfile

默認格式爲行存儲格式

2.ORCFile

hive/spark都支持這種存儲格式，它存儲的方式是採用數據按照行分塊，每一個塊按照列存儲，其中每一個塊都存儲有一個索引。特色是數據壓縮率很是高

3.Parquet

Parquet也是一種行式存儲，同時具備很好的壓縮性能；同時能夠減小大量的表掃描和反序列化的時間。

sql中如何定義存儲格式

CREATE TABLE IF NOT EXIST testname(
    ..........
)STORED AS PARQUET

引用https://www.jianshu.com/p/694f044d1c34

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。