hive匹配中文

時間 2019-12-08

標籤 hive 匹配中文欄目 Hadoop 简体版

原文原文鏈接

select regexp_extract('ab中文123測試55。。', '[\u4e00-\u9fa5]+', 0) html

只提出成功第一段中文漢字，結果爲：apache

中文函數

select regexp_replace('ab中文123測試55。。', '[\u4e00-\u9fa5]+', "") 測試

只去掉了中文漢字，沒去掉全角符號，結果爲：編碼

ab12355。。spa

備註unicode編碼範圍：code

2E80～33FFh：中日韓符號區。收容康熙字典部首、中日韓輔助部首、注音符號、日本假名、韓文音符，中日韓的符號、標點、帶圈或帶括符文數字、月份，以及日本的假名組合、單位、年號、月份、日期、時間等。regexp

3400～4DFFh：中日韓認同表意文字擴充A區，總計收容6,582箇中日韓漢字。htm

4E00～9FFFh：中日韓認同表意文字區，總計收容20,902箇中日韓漢字。unicode

A000～A4FFh：彝族文字區，收容中國南方彝族文字和字根。

AC00～D7FFh：韓文拼音組合字區，收容以韓文音符拼成的文字。

F900～FAFFh：中日韓兼容表意文字區，總計收容302箇中日韓漢字。

FB00～FFFDh：文字表現形式區，收容組合拉丁文字、希伯來文、阿拉伯文、中日韓直式標點、小符號、半角符號、全角符號等。

普通函數：

分析函數：

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。