hive函數----集合統計函數

時間 2019-11-21

標籤 hive 函數集合統計欄目 Hadoop 简体版

原文原文鏈接

集合統計函數1. 個數統計函數: countweb

語法: count(*), count(expr), count(DISTINCT expr[, expr_.])微信

返回值: intapp

說明: count(*)統計檢索出的行的個數，包括NULL值的行；count(expr)返回指定字段的非空值的個數；count(DISTINCTexpr[, expr_.])返回指定字段的不一樣的非空值的個數函數

舉例：spa

hive> select count(*) from lxw_dual;orm

20內存

hive> select count(distinct t) from lxw_dual;get

10it

2. 總和統計函數: sum import

語法: sum(col), sum(DISTINCT col)

返回值: double

說明: sum(col)統計結果集中col的相加的結果；sum(DISTINCT col)統計結果中col不一樣值相加的結果

舉例：

hive> select sum(t) from lxw_dual;

100

hive> select sum(distinct t) from lxw_dual;

3. 平均值統計函數: avg

語法: avg(col), avg(DISTINCT col)

返回值: double

說明: avg(col)統計結果集中col的平均值；avg(DISTINCT col)統計結果中col不一樣值相加的平均值

舉例：

hive> select avg(t) from lxw_dual;

hive> select avg (distinct t) from lxw_dual;

4. 最小值統計函數: min

語法: min(col)

返回值: double

說明: 統計結果集中col字段的最小值

舉例：

hive> select min(t) from lxw_dual;

5. 最大值統計函數: max

語法: maxcol)

返回值: double

說明: 統計結果集中col字段的最大值

舉例：

hive> select max(t) from lxw_dual;

120

6. 非空集合整體變量函數:var_pop

語法: var_pop(col)

返回值: double

說明: 統計結果集中col非空集合的整體變量（忽略null）

舉例：

7. 非空集合樣本變量函數:var_samp

語法: var_samp (col)

返回值: double

說明: 統計結果集中col非空集合的樣本變量（忽略null）

舉例：

8. 整體標準偏離函數:stddev_pop

語法: stddev_pop(col)

返回值: double

說明: 該函數計算整體標準偏離，並返回整體變量的平方根，其返回值與VAR_POP函數的平方根相同

舉例：

9. 樣本標準偏離函數:stddev_samp

語法: stddev_samp (col)

返回值: double

說明: 該函數計算樣本標準偏離

舉例：

10．中位數函數:percentile

語法: percentile(BIGINT col, p)

返回值: double

說明: 求準確的第pth個百分位數，p必須介於0和1之間，可是col字段目前只支持整數，不支持浮點數類型

舉例：

11. 中位數函數:percentile

語法: percentile(BIGINT col, array(p1 [, p2]…))

返回值: array<double>

說明: 功能和上述相似，以後後面能夠輸入多個百分位數，返回類型也爲array<double>，其中爲對應的百分位數。

舉例：

select percentile(score,<0.2,0.4>) from lxw_dual；取0.2，0.4位置的數據

12. 近似中位數函數:percentile_approx

語法: percentile_approx(DOUBLE col, p [, B])

返回值: double

說明: 求近似的第pth個百分位數，p必須介於0和1之間，返回類型爲double，可是col字段支持浮點類型。參數B控制內存消耗的近似精度，B越大，結果的準確度越高。默認爲10,000。當col字段中的distinct值的個數小於B時，結果爲準確的百分位數

舉例：

13. 近似中位數函數:percentile_approx

語法: percentile_approx(DOUBLE col, array(p1 [, p2]…) [, B])

返回值: array<double>

說明: 功能和上述相似，以後後面能夠輸入多個百分位數，返回類型也爲array<double>，其中爲對應的百分位數。

舉例：

14. 直方圖:histogram_numeric

語法: histogram_numeric(col, b)

返回值: array<struct {‘x’,‘y’}>

說明: 以b爲基準計算col的直方圖信息。

舉例：

hive> select histogram_numeric(100,5) from lxw_dual;

[{"x":100.0,"y":1.0}]

更多精彩內容請關注：http://bbs.superwu.cn

關注超人學院微信二維碼：

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。