小小明 凹凸數據
數組
小小明,「凹凸數據」專欄做者,Pandas數據處理專家,致力於幫助無數數據從業者解決數據處理難題。編輯器
凹凸們,你們好
咱們都知道Pandas裏支持正則替換比較舒服,可是Excel卻沒有一個能夠支持正則的函數!!!
不過我發現藉助VBA就能夠在Excel實現正則的抽取、搜索和替換,簡直如虎添翼有沒有~今天我要給你們分享一個我本身用VBA編寫的神器,讓你的Excel可以直接支持正則。看徹底文,若是有收穫,別忘了點贊支持一下
先看看效果吧:ide
對於一列數據:函數
中樓層(共9層)|2007年建|1室1廳|24.78平米|北 地下室|2014年建|1室0廳|39.52平米|東 底層(共2層)5室3廳|326.56平米|東南西北
咱們想提取出其中的 層、樓層數、建築年份、戶型、大小和方向,咱們能夠選中一排的六個單元格,而後輸入公式:工具
=re_extract(A1,"([^|(]+)(?:\(共(\d+)層\))?(?:\|(\d{4})年建\|)?(\d室\d廳)\|([\d.]+)平米\|([東南西北]+)")
而後按下Ctrl+shift+Enter(表示數組公式),便可獲得以下結果:開發工具
中樓層 9 2007 1室1廳 24.78 北 地下室 0 2014 1室0廳 39.52 東 底層 2 0 5室3廳 326.56 東南西北
效果以下:
?:表示當前括號內部是非捕獲組。
再看一個簡單的例子,對於一列數據:idea
小五87 張三丰98 東方不敗76 楊過88
咱們想將姓名和成績分開,能夠選中一排的二個單元格,而後輸入公式:3d
=re_extract(A1,"(.+?)(\d+)")
而後按下Ctrl+shift+Enter(表示數組公式),便可獲得以下結果。
效果:
excel
對於一列數據:code
聯想/LENOVO 獅樂/SHILE Midea/美的 聯想/LENOVO 松下/Panasonic 紅葉/RedLeaf 納米亞 富士施樂/FujiXerox 佳印 佳能/CANON TCL
咱們想提取其中的中文品牌,對於沒有中文的才用英文,能夠輸入公式:
=re_find(A1,"[\u4e00-\u9fa5]+|^\w+$")
最終結果:
固然正則搜索也支持數組公式,再看一個例子,對於下面一列數據:
ENBCUCPFunction=280419,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=279719,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280196,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280198,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280219,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280228,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280242,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=279519,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=279619,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=279633,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280032,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280382,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=279731,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280019,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=279819,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280319,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280191,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280194,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=460-01_280192,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280197,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280199,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=279419,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=279488,CULTE=1,RATFreq=1,EutranFreqLTE=18
咱們須要取出全部
的ENBCUCPFunction/CULTE/RATFreq/EutranFreqLTE四個字段對應的值,能夠選中一排的四個單元格,而後輸入公式:
=re_find(A1,"[-_\d]+")
便可獲得結果:
280419 1 1 18 279719 1 1 18 280196 1 1 18 280198 1 1 18 280219 1 1 18 280228 1 1 18 280242 1 1 18 279519 1 1 18 279619 1 1 18 279633 1 1 18 280032 1 1 18 280382 1 1 18 279731 1 1 18 280019 1 1 18 279819 1 1 18 280319 1 1 18 280191 1 1 18 280194 1 1 18 460-01_280192 1 1 18 280197 1 1 18 280199 1 1 18 279419 1 1 18 279488 1 1 18
效果:
對於下面這列數據,咱們但願僅保留EutranFreqLTE對應的值,多個值用;拼接:
ENBCUCPFunction=280419,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=279719,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280196,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280198,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280219,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280228,CULTE=1,RATFreq=1,EutranFreqLTE=18;ENBCUCPFunction=280228,CULTE=1,RATFreq=1,EutranFreqLTE=19 ENBCUCPFunction=280242,CULTE=1,RATFreq=1,EutranFreqLTE=18;ENBCUCPFunction=280242,CULTE=1,RATFreq=1,EutranFreqLTE=19 ENBCUCPFunction=279519,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=279619,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=279633,CULTE=1,RATFreq=1,EutranFreqLTE=18;ENBCUCPFunction=279633,CULTE=1,RATFreq=1,EutranFreqLTE=19 ENBCUCPFunction=280032,CULTE=1,RATFreq=1,EutranFreqLTE=18;ENBCUCPFunction=280032,CULTE=1,RATFreq=1,EutranFreqLTE=19 ENBCUCPFunction=280382,CULTE=1,RATFreq=1,EutranFreqLTE=18;ENBCUCPFunction=280382,CULTE=1,RATFreq=1,EutranFreqLTE=19 ENBCUCPFunction=279731,CULTE=1,RATFreq=1,EutranFreqLTE=18;ENBCUCPFunction=279731,CULTE=1,RATFreq=1,EutranFreqLTE=19 ENBCUCPFunction=280019,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=279819,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280319,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280191,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280194,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=460-01_280192,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280197,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280199,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=279419,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=279488,CULTE=1,RATFreq=1,EutranFreqLTE=18;ENBCUCPFunction=279488,CULTE=1,RATFreq=1,EutranFreqLTE=19
能夠輸入公式:
=re_sub(A1,".+?(\d+)(;|$)", "$1$2")
獲得結果:
18 18 18 18 18 18;19 18;19 18 18 18;19 18;19 18;19 18;19 18 18 18 18 18 18 18 18 18 18;19
效果:
再舉個例子,對於下面這列數據,想去掉全部的非中文字符和被括號括起來的字符:
中山-Z-古鎮華藝集團路口-280308-1-2-OF 中山-ZD-古鎮華藝集團路口-280308-2-1-OF 中山-Z-古鎮華藝集團路口-280308-2-2-OF 中山-ZD-橫欄富橫東路-280227-1-1-OF 中山-Z-橫欄富橫東路-280227-1-2-OF 中山-ZD-橫欄富橫東路-280227-2-1-OF 中山-Z-橫欄富橫東路-280227-2-2-OF 中山-ZD-橫欄富橫東路-280227-3-1-OF 中山-Z-橫欄富橫東路-280227-3-2-OF 中山-Z-三角電信營業廳(室分QCELL)-278903-1-1-MF 中山-Z-三角高平營業廳(室分QCELL)-278902-1-1-MF 中山-ZD-橫欄中藝重工-280009-1-1-OF 中山-ZD-橫欄中藝重工-280009-2-1-OF 中山-ZD-橫欄中藝重工-280009-3-1-OF 中山-Z-橫欄三沙商富路-279966-1-2-OF 中山-ZD-橫欄三沙商富路-279966-1-1-OF 中山-ZD-橫欄新豐物流-279974-1-1-OF 黃圃奧傑斯電器LTGX_3_F
輸入一下公式:
=re_sub(A1,"[A-Z0-9_\-]+|\(.*\)", "")
便可獲得:
中山古鎮華藝集團路口 中山古鎮華藝集團路口 中山古鎮華藝集團路口 中山橫欄富橫東路 中山橫欄富橫東路 中山橫欄富橫東路 中山橫欄富橫東路 中山橫欄富橫東路 中山橫欄富橫東路 中山三角電信營業廳 中山三角高平營業廳 中山橫欄中藝重工 中山橫欄中藝重工 中山橫欄中藝重工 中山橫欄三沙商富路 中山橫欄三沙商富路 中山橫欄新豐物流 黃圃奧傑斯電器
效果:
好了,演示完效果,咱們如今來看看如何開發這三個函數吧。
首先打開excel軟件,點擊開發工具->Visual Basic(或者直接按快捷鍵Alt+F11),打開VBA的編輯器:
右鍵單擊當前工做薄對象插入模塊:
在模塊中插入如下代碼:
Option Explicit Public Function re_sub(sText As String, pattern As String, repl As String) Dim oRegExp As Object Set oRegExp = CreateObject("vbscript.regexp") With oRegExp .Global = True 'True表示匹配全部, False表示僅匹配第一個符合項 .IgnoreCase = False '區分大小寫 .pattern = pattern re_sub = .Replace(sText, repl) End With End Function Public Function re_find(sText As String, pattern As String) Dim oRegExp As Object, match As Object, matches As Object Set oRegExp = CreateObject("vbscript.regexp") With oRegExp .Global = True 'True表示匹配全部, False表示僅匹配第一個符合項 .IgnoreCase = True '不區分大小寫 .pattern = pattern Set matches = .Execute(sText) End With Dim d As Object Set d = CreateObject("Scripting.Dictionary") For Each match In matches d.Add match, Null Next re_find = d.keys End Function Public Function re_extract(sText As String, pattern As String) Dim oRegExp As Object, match As Object, matches As Object, i As Integer Set oRegExp = CreateObject("vbscript.regexp") With oRegExp .Global = True 'True表示匹配全部, False表示僅匹配第一個符合項 .IgnoreCase = True '不區分大小寫 .pattern = pattern Set matches = .Execute(sText)(0).submatches End With Dim d As Object Set d = CreateObject("Scripting.Dictionary") For i = 0 To matches.Count - 1 d.Add matches(i), Null Next re_extract = d.keys End Function
而後按下Ctrl+S保存:
保存在我的宏工做簿:
C:\Users\{userName}\AppData\Roaming\Microsoft\Excel\XLSTART\
對於家庭和學生版2016,我的宏工做簿在:
C:\Users\{userName}\AppData\Local\Packages\Microsoft.Office.Desktop_8wekyb3d8bbwe\LocalCache\Roaming\Microsoft\Excel\XLSTART
{userName}表示你當前的用戶名。
格式爲xlam,文件名無所謂。
而後在這個電腦的任什麼時候候,任何地方打開excel軟件均可以直接使用上面開發好的正則處理函數了!
非捕獲組
功能:讓某個圓括號只用於分組,而不捕獲其中的內容。
方法:將(內容)改成(?:內容)
(?=abc)是正則中表示位置的語法,用於表示一個位置,表示當前位置的右邊必須是abc字符而不會匹配abc自己。
完結,撒花!乾貨分享,求個三連~