給你的Excel增長正則處理函數，簡直如虎添翼

時間 2021-01-24

標籤數組編輯器 ide 函數工具開發工具 idea 3d excel code 欄目 Microsoft Office 简体版

原文原文鏈接

給你的Excel增長正則處理函數，簡直如虎添翼

小小明凹凸數據
數組

小小明，「凹凸數據」專欄做者，Pandas數據處理專家，致力於幫助無數數據從業者解決數據處理難題。編輯器

凹凸們，你們好
咱們都知道Pandas裏支持正則替換比較舒服，可是Excel卻沒有一個能夠支持正則的函數！！！
不過我發現藉助VBA就能夠在Excel實現正則的抽取、搜索和替換，簡直如虎添翼有沒有~今天我要給你們分享一個我本身用VBA編寫的神器，讓你的Excel可以直接支持正則。看徹底文，若是有收穫，別忘了點贊支持一下
先看看效果吧：ide

正則抽取效果

對於一列數據：函數

中樓層(共9層)|2007年建|1室1廳|24.78平米|北
地下室|2014年建|1室0廳|39.52平米|東
底層(共2層)5室3廳|326.56平米|東南西北

咱們想提取出其中的層、樓層數、建築年份、戶型、大小和方向，咱們能夠選中一排的六個單元格，而後輸入公式：工具

=re_extract(A1,"([^|(]+)(?:\(共(\d+)層\))?(?:\|(\d{4})年建\|)?(\d室\d廳)\|([\d.]+)平米\|([東南西北]+)")

而後按下Ctrl+shift+Enter(表示數組公式)，便可獲得以下結果：開發工具

中樓層 9 2007 1室1廳 24.78 北
地下室 0 2014 1室0廳 39.52 東
底層 2 0 5室3廳 326.56 東南西北

效果以下：

?:表示當前括號內部是非捕獲組。
再看一個簡單的例子，對於一列數據：idea

小五87
張三丰98
東方不敗76
楊過88

咱們想將姓名和成績分開，能夠選中一排的二個單元格，而後輸入公式：3d

=re_extract(A1,"(.+?)(\d+)")

而後按下Ctrl+shift+Enter(表示數組公式)，便可獲得以下結果。
效果：
excel

正則搜索效果

對於一列數據：code

聯想/LENOVO
獅樂/SHILE
Midea/美的
聯想/LENOVO
松下/Panasonic
紅葉/RedLeaf
納米亞
富士施樂/FujiXerox
佳印
佳能/CANON
TCL

咱們想提取其中的中文品牌，對於沒有中文的才用英文，能夠輸入公式：

=re_find(A1,"[\u4e00-\u9fa5]+|^\w+$")

最終結果：

固然正則搜索也支持數組公式，再看一個例子，對於下面一列數據：

ENBCUCPFunction=280419,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=279719,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=280196,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=280198,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=280219,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=280228,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=280242,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=279519,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=279619,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=279633,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=280032,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=280382,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=279731,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=280019,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=279819,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=280319,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=280191,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=280194,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=460-01_280192,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=280197,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=280199,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=279419,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=279488,CULTE=1,RATFreq=1,EutranFreqLTE=18

咱們須要取出全部

的ENBCUCPFunction/CULTE/RATFreq/EutranFreqLTE四個字段對應的值，能夠選中一排的四個單元格，而後輸入公式：

=re_find(A1,"[-_\d]+")

便可獲得結果：

280419 1 1 18
279719 1 1 18
280196 1 1 18
280198 1 1 18
280219 1 1 18
280228 1 1 18
280242 1 1 18
279519 1 1 18
279619 1 1 18
279633 1 1 18
280032 1 1 18
280382 1 1 18
279731 1 1 18
280019 1 1 18
279819 1 1 18
280319 1 1 18
280191 1 1 18
280194 1 1 18
460-01_280192 1 1 18
280197 1 1 18
280199 1 1 18
279419 1 1 18
279488 1 1 18

效果：

正則替換效果

對於下面這列數據，咱們但願僅保留EutranFreqLTE對應的值，多個值用;拼接：

ENBCUCPFunction=280419,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=279719,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=280196,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=280198,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=280219,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=280228,CULTE=1,RATFreq=1,EutranFreqLTE=18;ENBCUCPFunction=280228,CULTE=1,RATFreq=1,EutranFreqLTE=19
ENBCUCPFunction=280242,CULTE=1,RATFreq=1,EutranFreqLTE=18;ENBCUCPFunction=280242,CULTE=1,RATFreq=1,EutranFreqLTE=19
ENBCUCPFunction=279519,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=279619,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=279633,CULTE=1,RATFreq=1,EutranFreqLTE=18;ENBCUCPFunction=279633,CULTE=1,RATFreq=1,EutranFreqLTE=19
ENBCUCPFunction=280032,CULTE=1,RATFreq=1,EutranFreqLTE=18;ENBCUCPFunction=280032,CULTE=1,RATFreq=1,EutranFreqLTE=19
ENBCUCPFunction=280382,CULTE=1,RATFreq=1,EutranFreqLTE=18;ENBCUCPFunction=280382,CULTE=1,RATFreq=1,EutranFreqLTE=19
ENBCUCPFunction=279731,CULTE=1,RATFreq=1,EutranFreqLTE=18;ENBCUCPFunction=279731,CULTE=1,RATFreq=1,EutranFreqLTE=19
ENBCUCPFunction=280019,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=279819,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=280319,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=280191,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=280194,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=460-01_280192,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=280197,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=280199,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=279419,CULTE=1,RATFreq=1,EutranFreqLTE=18
ENBCUCPFunction=279488,CULTE=1,RATFreq=1,EutranFreqLTE=18;ENBCUCPFunction=279488,CULTE=1,RATFreq=1,EutranFreqLTE=19

能夠輸入公式：

=re_sub(A1,".+?(\d+)(;|$)", "$1$2")

獲得結果：

效果：

再舉個例子，對於下面這列數據，想去掉全部的非中文字符和被括號括起來的字符：

中山-Z-古鎮華藝集團路口-280308-1-2-OF
中山-ZD-古鎮華藝集團路口-280308-2-1-OF
中山-Z-古鎮華藝集團路口-280308-2-2-OF
中山-ZD-橫欄富橫東路-280227-1-1-OF
中山-Z-橫欄富橫東路-280227-1-2-OF
中山-ZD-橫欄富橫東路-280227-2-1-OF
中山-Z-橫欄富橫東路-280227-2-2-OF
中山-ZD-橫欄富橫東路-280227-3-1-OF
中山-Z-橫欄富橫東路-280227-3-2-OF
中山-Z-三角電信營業廳(室分QCELL)-278903-1-1-MF
中山-Z-三角高平營業廳(室分QCELL)-278902-1-1-MF
中山-ZD-橫欄中藝重工-280009-1-1-OF
中山-ZD-橫欄中藝重工-280009-2-1-OF
中山-ZD-橫欄中藝重工-280009-3-1-OF
中山-Z-橫欄三沙商富路-279966-1-2-OF
中山-ZD-橫欄三沙商富路-279966-1-1-OF
中山-ZD-橫欄新豐物流-279974-1-1-OF
黃圃奧傑斯電器LTGX_3_F

輸入一下公式：

=re_sub(A1,"[A-Z0-9_\-]+|\(.*\)", "")

便可獲得：

中山古鎮華藝集團路口
中山古鎮華藝集團路口
中山古鎮華藝集團路口
中山橫欄富橫東路
中山橫欄富橫東路
中山橫欄富橫東路
中山橫欄富橫東路
中山橫欄富橫東路
中山橫欄富橫東路
中山三角電信營業廳
中山三角高平營業廳
中山橫欄中藝重工
中山橫欄中藝重工
中山橫欄中藝重工
中山橫欄三沙商富路
中山橫欄三沙商富路
中山橫欄新豐物流
黃圃奧傑斯電器

效果：

用VBA實現上面三個函數並讓其自動加載

好了，演示完效果，咱們如今來看看如何開發這三個函數吧。
首先打開excel軟件，點擊開發工具->Visual Basic（或者直接按快捷鍵Alt+F11），打開VBA的編輯器:

右鍵單擊當前工做薄對象插入模塊：

在模塊中插入如下代碼：

Option Explicit

Public Function re_sub(sText As String, pattern As String, repl As String)
    Dim oRegExp As Object
    Set oRegExp = CreateObject("vbscript.regexp")
    With oRegExp
        .Global = True 'True表示匹配全部, False表示僅匹配第一個符合項
        .IgnoreCase = False '區分大小寫
        .pattern = pattern
        re_sub = .Replace(sText, repl)
    End With
End Function

Public Function re_find(sText As String, pattern As String)
    Dim oRegExp As Object, match As Object, matches As Object
    Set oRegExp = CreateObject("vbscript.regexp")
    With oRegExp
        .Global = True 'True表示匹配全部, False表示僅匹配第一個符合項
        .IgnoreCase = True '不區分大小寫
        .pattern = pattern
        Set matches = .Execute(sText)
    End With

    Dim d As Object
    Set d = CreateObject("Scripting.Dictionary")
    For Each match In matches
        d.Add match, Null
    Next
    re_find = d.keys
End Function

Public Function re_extract(sText As String, pattern As String)
    Dim oRegExp As Object, match As Object, matches As Object, i As Integer
    Set oRegExp = CreateObject("vbscript.regexp")
    With oRegExp
        .Global = True 'True表示匹配全部, False表示僅匹配第一個符合項
        .IgnoreCase = True '不區分大小寫
        .pattern = pattern
        Set matches = .Execute(sText)(0).submatches
    End With

    Dim d As Object
    Set d = CreateObject("Scripting.Dictionary")
    For i = 0 To matches.Count - 1
        d.Add matches(i), Null
    Next
    re_extract = d.keys

End Function

而後按下Ctrl+S保存：

保存在我的宏工做簿：

C:\Users\{userName}\AppData\Roaming\Microsoft\Excel\XLSTART\

對於家庭和學生版2016，我的宏工做簿在：

C:\Users\{userName}\AppData\Local\Packages\Microsoft.Office.Desktop_8wekyb3d8bbwe\LocalCache\Roaming\Microsoft\Excel\XLSTART

{userName}表示你當前的用戶名。
格式爲xlam，文件名無所謂。

而後在這個電腦的任什麼時候候，任何地方打開excel軟件均可以直接使用上面開發好的正則處理函數了！

正則高級語法相關資料

非捕獲組
功能：讓某個圓括號只用於分組，而不捕獲其中的內容。
方法：將(內容)改成(?:內容)

環視

(?=abc)是正則中表示位置的語法，用於表示一個位置，表示當前位置的右邊必須是abc字符而不會匹配abc自己。

獲取捕獲組

完結，撒花！乾貨分享，求個三連~

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。