UDF是用來對HIVE函數庫進行擴展的,能夠利用java代碼進行自定義的功能需求。java
1.新建java工程。linux
2.導入HIVE相關包,jar包在HIVE安裝程序的lib目錄下,只須要拷貝jar包便可。sql
3.建立類繼承UDF類。org.apache.hadoop.hive.ql.exec.UDFshell
4.本身編寫一個名爲evaluate方法,返回值和參數任意,可是方法名字必須是evaluate。數據庫
5.將寫好的類打成jar包,在打jar包的時候能夠只打本身寫的類,jar包資源能夠不打進jar包裏。而後上傳到linux中。apache
6.在hive命令行下,向hive註冊UDF,並建立當前函數(如何註冊和建立在下面介紹)。編程
完成以上步驟以後就能夠在hql中使用該自定義函數了。bash
編寫一個簡單的小寫轉大寫。服務器
import org.apache.hadoop.hive.ql.exec.UDF; public class MyUDFDemo extends UDF{ public String evaluate(String str) { return str.toUpperCase(); } }
在向Hive註冊函數的時候,分爲臨時註冊和永久註冊。函數
註冊臨時函數比較簡單,只要在hive的shell界面輸入如下兩條命令,便可註冊,可是此函數會在你退出當前Hive的shell時,自動去掉。
#註冊臨時函數 hive> add jar /xxx/xxx/xxx.jar; #命名臨時函數 hive> create temporary function function_name as "xx.xx.xx.classname";
以上兩部就能夠生成一個自定義的函數了。切記,這個是臨時的,適合測試使用,不適合生產環境。
[root@xh01 horseman]# ls HorseMan.jar [root@xh01 horseman]# pwd /home/script/horseman
以上是本人的jar包以及存放位置,jar包中有一個類,類的全路徑名爲:cn.com.xh.udf.OnWork.class。
如下是登陸Hive的shell進行臨時添加的操做:
[root@xh01 horseman]# hive #省略系統輸出 #………… hive> add jar /home/script/horseman/HorseMan.jar; Added [/home/script/horseman/HorseMan.jar] to class path Added resources: [/home/script/horseman/HorseMan.jar] hive> create temporary function on_work as "cn.com.xh.udf.OnWork"; OK Time taken: 0.007 seconds hive> select on_work();
如上,成功添加了一個名爲on_work的方法。
註冊永久函數,統計網上的說法,有兩種,其一修改源碼,其二就是本人接下來要說的一種。
第一種比較危險,由於一個弄很差,就會形成Hive崩盤,並且不適合生產環境,咱們添加函數,都是在業務發展的過程當中添加的,不會說從新去搭建一個Hive來專門弄一個函數。
第二種添加的方法和臨時的區別不大,可是適合咱們在生產環境使用。
如下是官方給出的說明:
在Hive 0.13或更高版本中,函數能夠註冊到Metastore,所以能夠在查詢中引用它們,而無需在每一個會話中建立臨時函數。
建立功能
hive> CREATE FUNCTION [db_name.]function_name AS class_name [USING JAR|FILE|ARCHIVE 'file_uri' [, JAR|FILE|ARCHIVE 'file_uri'] ];
此語句容許您建立由class_name實現的函數。可使用USING子句指定須要添加到環境中的jar,文件或存檔;當Hive會話第一次引用該函數時,這些資源將被添加到環境中,就像發佈了ADD JAR / FILE同樣。若是Hive不在本地模式,則資源位置必須是非本地URI,例如HDFS位置。
該函數將添加到指定的數據庫,或者在建立函數時添加到當前數據庫。能夠經過徹底限定函數名稱(db_name.function_name)來引用該函數,或者若是函數位於當前數據庫中,則能夠無限制地引用該函數。
刪除功能
hive>DROP FUNCTION [IF EXISTS] function_name;
若是函數不存在,DROP將返回錯誤,除非指定了IF EXISTS或配置變量hive.exec.drop.ignorenonexistent 設置爲true。
注意:刪除函數時,必定要處於添加函數的數據庫中。
從新加載功能
hive> RELOAD FUNCTION;
從HIVE-2573開始,若是在建立函數以前啓動了HiveServer2或其餘Hive CLI會話,則在一個Hive CLI會話中建立永久功能可能不會反映出來。在HiveServer2或HiveCLI會話中發出RELOAD FUNCTION將容許它獲取可能由不一樣HiveCLI會話完成的永久功能的任何更改。
查看官方原文請點擊此處
本人將臨時方法註冊的jar包拿過來,存放到HDFS中的/udf/horseman/目錄中,添加方法以下:
hive>create function on_work as 'cn.com.xh.udf.OnWork' using jar 'hdfs://xh01:9000/udf/horseman/HorseMan.jar';
這個只須要這一條語句,便可建立永久的函數。以下是刪除函數:
hive>drop function on_work;
hive實現了jdbc接口,因此能夠很是方便用jdbc技術經過java代碼操做。
HIVE默認狀況是關閉對外的服務,須要在服務器端開啓HiveServer2服務,命令以下:
./hive --service hiveserver2
這個模式一直開啓的狀況下,才能鏈接成功,不然,鏈接失敗。
可使用一下命令,是該服務進入後臺運行:
[root@hadoop bin]# ./hive --service hiveserver2 & [1] 6669 [root@hadoop bin]# bg 1 -bash: bg: job 1 already in background
這樣程序進入後臺運行,也不影響進行其餘操做。
建立本地java工程。
導入hive\lib目錄下的hive-jdbc-1.2.0-standalone.jar
導入hadoop-2.7.1\share\hadoop\common下的hadoop-common-2.7.1.jar
public static void main(String[] args) { Connection conn = null; Statement st = null; ResultSet rs = null; try { // 1.註冊數據庫驅動 Class.forName("org.apache.hive.jdbc.HiveDriver"); // 2.獲取數據鏈接 conn = DriverManager.getConnection("jdbc:hive2://192.168.75.150:10000/park", "root", "root"); // 3.獲取傳輸器對象 st = conn.createStatement(); // 4.傳輸sql執行獲取結果集 rs = st.executeQuery("select * from stu"); // 5.處理結果集 while (rs.next()) { String str = rs.getString("name"); System.out.println(str); } } catch (Exception e) { e.printStackTrace(); } finally { // 6.關閉鏈接 if (rs != null) { try { rs.close(); } catch (Exception e) { e.printStackTrace(); } finally { rs = null; } } if (st != null) { try { st.close(); } catch (Exception e) { e.printStackTrace(); } finally { st = null; } } if (conn != null) { try { conn.close(); } catch (Exception e) { e.printStackTrace(); } finally { conn = null; } } } }
以上須要注意的是jdbc的驅動以及鏈接地址協議。
上一篇:HIVE內置函數
下一篇:Hive應用:外部表連接內部表