HiveSQL正則表達式的應用[轉]

最近工做中數據處理方面用到不少不是特別容易處理的數據,用正則表達式的話會讓語句顯得特別精簡,也能夠用各類字符串截取函數嵌套處理(必需要有必定規律),總結一下常常用到的幾個。git

1.正則的通配符簡介
   1)正則表達式的符號及意義   
       ^ 表示開頭正則表達式

      $ 表示結尾sql

      . 表示任意字符函數

      * 表示任意多個post

/
作爲轉意,即一般在"/"後面的字符不按原來意義解釋,如/b/匹配字符"b",當b前面加了反斜杆後//b/,轉意爲匹配一個單詞的邊界。
-或- 
對正則表達式功能字符的還原,如"*"匹配它前面元字符0次或屢次,/a*/將匹配a,aa,aaa,加了"/"後,/a/*/將只匹配"a*"。spa

^ 匹配一個輸入或一行的開頭,/^a/匹配"an A",而不匹配"An a"
$ 匹配一個輸入或一行的結尾,/a$/匹配"An a",而不匹配"an A"
* 匹配前面元字符0次或屢次,/ba*/將匹配b,ba,baa,baaa
+ 匹配前面元字符1次或屢次,/ba*/將匹配ba,baa,baaa
? 匹配前面元字符0次或1次,/ba*/將匹配b,ba
(x) 匹配x保存x在名爲$1...$9的變量中
x|y 匹配x或y
{n} 精確匹配n次
{n,} 匹配n次以上
{n,m} 匹配n-m次
[xyz] 字符集(character set),匹配這個集合中的任一一個字符(或元字符)
[^xyz] 不匹配這個集合中的任何一個字符
[/b] 匹配一個退格符
/b 匹配一個單詞的邊界
/B 匹配一個單詞的非邊界
/cX 這兒,X是一個控制符,//cM/匹配Ctrl-M
/d 匹配一個字數字符,//d/ = /[0-9]/
/D 匹配一個非字數字符,//D/ = /[^0-9]/
/n 匹配一個換行符
/r 匹配一個回車符
/s 匹配一個空白字符,包括/n,/r,/f,/t,/v等
/S 匹配一個非空白字符,等於/[^/n/f/r/t/v]/
/t 匹配一個製表符
/v 匹配一個重直製表符
/w 匹配一個能夠組成單詞的字符(alphanumeric,這是個人意譯,含數字),包括下劃線,如[/w]匹配"$5.98"中的5,等於[a-zA-Z0-9]
/W 匹配一個不能夠組成單詞的字符,如[/W]匹配"$5.98"中的$,等於[^a-zA-Z0-9]。
'( )' 標記一個子表達式的開始和結束位置。
'[]' 標記一箇中括號表達式。
/num 匹配 num,其中 num 是一個正整數。對所獲取的匹配的引用。.net

   2)字符簇: 
        [[:alpha:]] 任何字母。
        [[:digit:]] 任何數字。
        [[:alnum:]] 任何字母和數字。
        [[:space:]] 任何白字符。
        [[:upper:]] 任何大寫字母。
        [[:lower:]] 任何小寫字母。
        [[:punct:]] 任何標點符號。
        [[:xdigit:]] 任何16進制的數字,至關於[0-9a-fA-F]regexp

        [[:<:]],[[:>:]] 標記表示word邊界。它們分別與word的開始和結束匹配。word是一系列字字符,其前面和後面均沒有字字符。字字符是alnum類中的字母數字字符或下劃線(_)blog

   3)各類操做符的運算優先級:
           / 轉義符
          (), (?:), (?=), [] 圓括號和方括號
           *, +, ?, {n}, {n,}, {n,m} 限定符
          ^, $, anymetacharacter 位置和順序ci

2.正則函數介紹
   1) regexp_extract
regexp_extract(str  , regexp  , idx)     

參數解釋:

 

其中:

 

str是被解析的字符串或字段名

 

regexp 是正則表達式

 

idx是返回結果 取表達式的哪一部分  默認值爲1。

 

0表示把整個正則表達式對應的結果所有返回

 

1表示返回正則表達式中第一個() 對應的結果 以此類推 

 

For example :   

       select regexp_extract('hitdecisiondlist','(i)(.*?)(e)', idx ) ;     ----   (.*?) 表明  0到多個任意字符,?表明非貪婪模式,意思是:取儘可能少的任意字符

       idx=0  結果:itde  ; idx=1  結果:i  ; idx=2 結果:td  ; idx=3 結果:e

      由此能夠看出從左開始括號內部的值是根據 idx的下標來肯定的(起始位爲1)

 

      select  regexp_extract('insert overwrite table tmp_table_test  select * from table' , '(table)[[:space:]](.*)[[:space:]](select)',2) from dual 

       目的是取出要插入數據的目標表的表名(tmp_table_test) ,位置爲2時 取得是(.*)匹配的字符串,位置爲1時取得是(table)匹配的字符串 table,位置爲3時取得是 (select)匹配的字符串 select

 

     select
             REGEXP_EXTRACT('9.00w','([0-9]*)[[:punct:]]([0-9]*)[[:alpha:]]',1),
             REGEXP_EXTRACT('9.00w','([0-9]*)[[:punct:]]([0-9]*)[[:alpha:]]',2)
      from dual

      你們能夠試試這個語句的做用,驗證一下上面說的是否正確,^_^

    2) regexp_substr
regexp_substr(string, regex,postion,match_parameter)

  string : 被解析的字符串或字段名

  regex: 正則表達式

  postion:其實位置

  match_parameter:出現的次數

 

For example:

                  select regexp_substr('別克-君威2010款 2.4L A.MT 旗艦版2.3T','[[:alnum:]][[:punct:]][[:alnum:]][LT]',1,1)  from dual

                 分析: 上面正則的意思是 [[:alnum:]][[:punct:]][[:alnum:]][LT]  ===> 任何字母(不區分大小寫)和數字+ 任何標點符號+任何字母和數字 +(L或者T)的組合

                  後面   1,1 的意思是從匹配的字符串起,符合正則且第一次出現的字符串

                  結果:  2.4L

                 

                 換個方式提取  A.MT SQL語句以下

                select regexp_substr('別克-君威2010款 2.4L A.MT 旗艦版2.3T','[[:alnum:]][[:punct:]][[:alnum:]][LT]',1,2)  from dual

                若是提取2.3T ,把最後那個數字改爲3便可,就不寫sql了。累!

                

                 select
                 REGEXP_SUBSTR('9.00w','([0-9]*)[[:punct:]]([0-9]*)',1,1) 
                 from dual

                你們能夠驗證一下這個語句!

      3)regexp
 regexp的用法比較簡單,就是個判斷語句跟like、=、!=、not in 、in 的感受同樣

          你們平常處理日期數據時,會出現yyyy-mm-dd這種不符合正常邏輯的狀況,例如:1870-12-59/2018-02-29(瑞年和平年的問題) 等

       廢話很少說,直接上例子

select 1 from dual 
where '2017-09-31' REGEXP '(([0-9]{3}[1-9]|[0-9]{2}[1-9][0-9]{1}|[0-9]{1}[1-9][0-9]{2}|[1-9][0-9]{3})-(((0[13578]|1[02])-(0[1-9]|[12][0-9]|3[01]))|((0[469]|11)-(0[1-9]|[12][0-9]|30))|(02-(0[1-9]|[1][0-9]|2[0-8]))))|((([0-9]{2})(0[48]|[2468][048]|[13579][26])|((0[48]|[2468][048]|[3579][26])00))-02-29)' 

 

                    來把下面的表達式解剖了來看

                                                       '(([0-9]{3}[1-9]|     ----第一種組合前3位知足0~9,後1位知足1~9   (YYYY)

                                                         [0-9]{2}[1-9][0-9]{1}|    ----第二種組合前2位知足0~9,後1位知足1~9,最後1位知足0~9  (YYYY)

                                                        [0-9]{1}[1-9][0-9]{2}|     ----第三種組合第1位知足0~9,第2位知足1~9,最後2位知足0~9  (YYYY)

                                                        [1-9][0-9]{3})                ----第四種組合第1位知足1~9,後3位知足0~9  (YYYY)

                                                        -(((0[13578]|                ----第一種組合第1位是0,第2位 13578 (中括號 [  ]表明裏面的元素是或的概念)  (MM)   01 03 05 07 08

                                                                   1[02])               ----第二種組合第1位是1,第2位 02   (MM)   10 12

                                                        -(0[1-9]|                       ----第一種組合第1位是0,第2位 1~9    (DD)   01 ~ 09

                                                           [12][0-9]|                  ----第一種組合第1位是1或2,第2位 0~9    (DD)  10 ~29

                                                           3[01]))|                     ----第一種組合第1位是3,第2位  0或1   (DD)   30~31

                                                       上面考慮的是1 3 5 7 8 10 臘  31天永不差的原則,這個不會的話重讀一邊小學!

---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

                                                       ((0[469]|                      ----第一種組合第1位 0 ,第2位 469 (中括號 [  ]表明裏面的元素是或的概念) (MM) 04 06 09

                                                               11)                      ----第二種組合是11  (MM)    11

                                                        -(0[1-9]|                     ----第一種組合第1位0,第2位 1~9   (DD) 01~09

                                                        [12][0-9]|                    ----第二種組合第1位1~2,第2位 0~9   (DD)  10~29

                                                        30))|                           ----第三種組合30   (DD)    30

                                                      上面考慮的是 4 6 9 11 月 都是30天

----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

                                                    下面考慮的是瑞年、平年2月多少天的問題。

                                                       (02-(0[1-9]|[1][0-9]|2[0-8]))))|

                                                       ((([0-9]{2})(0[48]|

                                                       [2468][048]|

                                                       [13579][26])|

                                                       ((0[48]|[2468][048]|[3579][26])00))-02-29)'

相關文章
相關標籤/搜索