python-文本處理和正則表達式

時間 2019-12-05

原文原文鏈接

【未完成初稿】
這周在工做中遇到不少須要從一段字符中增刪查改的工做，第一遍用本身寫的腳本去作，結果是可重用性不高，並且效率也不太好。其中也用到了python中的正則表達式部分re,後來就想能不能將我遇到的這類問題所有用正則去解決，具體就是python的re模塊。答案目前還不知道，在還沒遇到更多的問題以前，仍是不要輕易下結論。這篇文章就看成一個備忘錄，用來記錄遇到的文本處理問題，其解決的辦法，重點是正則表達式能作到的，由於它總比咱們本身寫的快嘛。html

這篇文章分爲幾個部分：
1，遇到的文本處理的問題
2，正則可以解決的和不能解決的
3，正則的基本知識
4，python中re正則模塊的學習
5，結合一些實例，用正則完整分析一個問題
6，有哪些不用正則也能夠很好解決的
7，回顧和思考
8，資源
其中第1,2,5,6,7可能要不斷更新的。python

1，遇到的文本處理的問題

1.1 將一個字符串中的全部中文標點符號替換爲英文的。
1.2 將字符串中某些詞替換爲另一個詞
1.3 刪除字符串中的某些詞正則表達式

2，正則可以解決的和不能解決的

3，正則的基本知識

[注]這部分引用了
正則表達式 - 語法
 正則表達式30分鐘入門教程
3.1 正則是什麼express

正則表達式(regular expression)描述了一種字符串匹配的模式，能夠用來檢查一個串是否含有某種子串、將匹配的子串作替換或者從某個串中取出符合某個條件的子串等。segmentfault

3.2 一個簡單的例子 函數

從一段英語文字中找到單詞hi,咋一看很簡單，若是是在python中你可能只須要用str.find('hi')就能夠找到它的第一個位置了，但除非你的句子中沒有hight,shift...
包含hi的詞，除非你不把Hi、HI也當成hi,除非... 工具

使用正則表達式只要用\bhi\b就能夠表達這個意思。首先，正則表達式會自動幫咱們忽略大小寫，而後，\b是正則表達式規定的一個特殊代碼，表明着單詞的開頭或結尾，也就是單詞的分界處，表明着hi這個詞先後都被空格、逗號等等分割。學習

也就是說當咱們要處理一段文本獲得咱們想要的東西的時候，要求太多，咱們覺得理所固然的事情計算機不會，咱們須要用一套機制告訴它咱們認爲理所應當的規則，這就是正則表達式，它高度抽象、很是很差寫。因此咱們須要一個工具下載Regex Tester幫助咱們，大概是這樣的：
spa

3.3 怎樣寫正則表達式.net

正則表達式是由普通字符（例如字符 a 到 z）以及特殊字符（稱爲"元字符"）組成的文字模式。

正常的英語都是以a-z 26個字母組成的，而正則語句是由普通字符和元字符組成的，其中：

普通字符：全部大寫和小寫字母、全部數字、全部標點符號和一些其餘符號。
元字符：按功能分類，它包括非打印字符、特殊字符、限定符、定位符、

非打印字符

字符	描述
cx	匹配由x指明的控制字符。例如， cM 匹配一個 Control-M 或回車符。x 的值必須爲 A-Z 或 a-z 之一。不然，將 c 視爲一個原義的 'c' 字符。
f	匹配一個換頁符。等價於 x0c 和 cL。
n	匹配一個換行符。等價於 x0a 和 cJ。
r	匹配一個回車符。等價於 x0d 和 cM。
s	匹配任何空白字符，包括空格、製表符、換頁符等等。等價於 [ fnrtv]。
S	匹配任何非空白字符。等價於 ¹。
t	匹配一個製表符。等價於 x09 和 cI。
v	匹配一個垂直製表符。等價於 x0b 和 cK。

特殊字符

特別字符	描述
$	匹配輸入字符串的結尾位置。若是設置了 RegExp 對象的 Multiline 屬性，則 $ 也匹配 'n' 或 'r'。要匹配 $ 字符自己，請使用 $。
( )	標記一個子表達式的開始和結束位置。子表達式能夠獲取供之後使用。要匹配這些字符，請使用 ( 和 )。
*	匹配前面的子表達式零次或屢次。要匹配 * 字符，請使用 *。
+	匹配前面的子表達式一次或屢次。要匹配 + 字符，請使用 +。
.
[	標記一箇中括號表達式的開始。要匹配 [，請使用 [。
?	匹配前面的子表達式零次或一次，或指明一個非貪婪限定符。要匹配 ? 字符，請使用 ?。
\| 5789536e17c4d1581d5e6e1dc5484afa163	將下一個字符標記爲或特殊字符、或原義字符、或向後引用、或八進制轉義符。例如， 'n' 匹配字符 'n'。'n' 匹配換行符。序列 '\' 匹配 ""，而 '(' 則匹配 "("。
^	匹配輸入字符串的開始位置，除非在方括號表達式中使用，此時它表示不接受該字符集合。要匹配 ^ 字符自己，請使用 ^。
{	標記限定符表達式的開始。要匹配 {，請使用 {。
\|	指明兩項之間的一個選擇。要匹配 \|，請使用 \|。

限定符
限定符用來指定正則表達式的一個給定組件必需要出現多少次才能知足匹配。有*或+或?或{n}或{n,}或{n,m}共6種。

正則表達式的限定符有：

字符	描述
*	匹配前面的子表達式零次或屢次。例如，zo 能匹配 "z" 以及 "zoo"。等價於{0,}。
+	匹配前面的子表達式一次或屢次。例如，'zo+' 能匹配 "zo" 以及 "zoo"，但不能匹配 "z"。+ 等價於 {1,}。
?	匹配前面的子表達式零次或一次。例如，"do(es)?" 能夠匹配 "do" 或 "does" 中的"do" 。? 等價於 {0,1}。
{n}	n 是一個非負整數。匹配肯定的 n 次。例如，'o{2}' 不能匹配 "Bob" 中的 'o'，可是能匹配 "food" 中的兩個 o。
{n,}	n 是一個非負整數。至少匹配n 次。例如，'o{2,}' 不能匹配 "Bob" 中的 'o'，但能匹配 "foooood" 中的全部 o。'o{1,}' 等價於 'o+'。'o{0,}' 則等價於 'o*'。
{n,m}	m 和 n 均爲非負整數，其中n <= m。最少匹配 n 次且最多匹配 m 次。例如，"o{1,3}" 將匹配 "fooooood" 中的前三個 o。'o{0,1}' 等價於 'o?'。請注意在逗號和兩個數之間不能有空格。

定位符
定位符使您可以將正則表達式固定到行首或行尾。它們還使您可以建立這樣的正則表達式，這些正則表達式出如今一個單詞內、在一個單詞的開頭或者一個單詞的結尾。定位符用來描述字符串或單詞的邊界，^和$分別指字符串的開始與結束，b描述單詞的前或後邊界，B表示非單詞邊界。


字符	描述
^	匹配輸入字符串開始的位置。若是設置了 RegExp 對象的 Multiline 屬性，^ 還會與 n 或 r 以後的位置匹配。
$	匹配輸入字符串結尾的位置。若是設置了 RegExp 對象的 Multiline 屬性，$ 還會與 n 或 r 以前的位置匹配。
b	匹配一個字邊界，即字與空格間的位置。
B	非字邊界匹配。

4，python中re正則模塊的學習

正則在python中是經過re模塊實現的。文檔
下面給出re核心函數和方法

**`re` 模塊的函數                              描述**

complie(pattern,flags=0)           對正則表達式模式 pattern 進行編譯，flags 是可選標誌符，並返回一個 regex 對象

match(pattern,string,flags=0)      用pattern匹配字符串 string,成功返回匹配對象，不然返回None

search(pattern,string,flags=0)     在字符串 string 中查找正則表達式模式 pattern 的第一次出現，匹配成功，返回一個匹配對象；不然返回 None

findall(pattern,string[,flags])    在字符串 string 中查找正則表達式模式 pattern 的全部(非重複)出現；返回一個匹配對象的列表

finditer(pattern,string,[,flags])  和 findall()相同，但返回的不是列表而是迭代器；對於每一個匹配，該迭代器返回一個匹配對象

split(pattern,string,max=0)        根據正則表達式 pattern 中的分隔符把字符 string 分割爲一個列表，返回成功匹配的列表，最多分割 max 次(默認是分割全部匹配的地方)。

sub(pattern,repl,string,max=0)     把字符串 string 中全部匹配正則表達式 pattern 的地方替換成字符串 repl,若是 max 的值沒有給出， 則對全部匹配的地方進行替換。

group(num=0)                       返回所有匹配對象(或指定編號是 num 的子組)

groups()                           返回一個包含所有匹配的子組的元組(若是沒成功匹配，就返回一個空元組)

1. 使用 compile()編譯正則表達式
爲何要編譯：正則表達式模式使用前必須先被編譯成 regex 對象，也就是說每次使用都要編譯一次，那還不如先編譯，而後隨時用起來，省時省空間。

本來是這樣：

result1=re.match(pattern,string1)
result2=re.match(pattern,string2)
result3=re.match(pattern,string3)
...

如今是這樣：

prog = re.compile(pattern)
result1 = prog.match(string1)
result2 = prog.match(string2)
result3 = prog.match(string3)
...

結果是不用每次都要將pattern做爲參數放入函數中去了，大大節省時間。

2. 用 match()匹配字符串

簡單：

m = re.match('foo', 'foo') # pattern matches string ，模式匹配字符串
if m is not None: # show match if successful 若是成功，顯示匹配
    m.group()#group()返回所有對象 'foo'

m = re.match('foo', 'bar')# pattern does not match string 模式不匹配字符串
m#None
m = re.match('foo', 'food on the table') # match succeeds # 匹配成功
m.group()#'foo'

+正則：

3. 用search()匹配字符串

其實，你要搜索的模式出如今一個字符串中間的機率要比出如今字符串開頭的機率更大一些。
這正是 search()派上用場的時候。search 和 match 的工做方式同樣，不一樣之處在於 search 會檢查參數字符串任意位置的地方給定正則表達式模式的匹配狀況。若是搜索到成功的匹配，會返回一個匹配對象，不然返回 None。

如今咱們來舉例說明 match()和 search()之間的區別。咱們用字符串"foo"去匹配「seafood」:

m = re.match('foo', 'seafood') # no match 匹配失敗
m#None
m = re.search('foo', 'seafood') # use search() instead 改用 search()
if m is not None: m.group()
'foo'#匹配成功

4. 用findall()匹配字符串

它用於非重疊地查找某字符串中一個正則表達式模式出
現的狀況。findall()和 search()類似之處在於兩者都執行字符串搜索，但 findall()和 match()與search()不一樣之處是，findall()總返回一個列表。若是 findall()沒有找到匹配的部分，會返回空列表；若是成功找到匹配部分，則返回全部匹配部分的列表(按從左到右出現的順序排列)。

re.findall('car', 'carry the barcardi to the car')
['car', 'car', 'car']

5. 用 split()分割(分隔模式)

re 模塊和正則表達式對象的方法 split()與字符串的 split()方法類似， 前者是根據正則表達式模式分隔字符串，後者是根據固定的字符串分割,所以與後者相比，顯著提高了字符分割的能力。

re.split(':', 'str1:str2:str3')
['str1', 'str2', 'str3']

6. 用 sub()[和 subn()]進行搜索和替換

兩者幾乎是同樣的，都是將某字符串中全部匹配正則表達式模式的部分進行替換。用來替換的部分一般是一個字符串，但也多是一個函數，該函數返回一個用來替換的字符串。subn()和 sub()同樣，但它還返回一個表示替換次數的數字，替換後的字符串和表示替換次數的數字做爲一個元組的元素返回。

re.sub('l','L','hello')

 heLLo

5，結合一些實例，用正則完整分析一個問題

實例1：

前幾天處理了一個小問題,問題描述以下：
問題：字符串s有兩種內容，一種是'客車',一種是'4排5座SUV',若是是'客車'原樣返回，若是是
'4排5座SUV',則將字符串'4排5座SUV'中的'5座'單獨提取出來，這個問題很簡單先用if語句解決
'客車',在查看'4排5座SUV'中文和英文的字符長度，用切片選出來就行，解決以下:

try:
    if s=='客車':
        return s
    else:
        return s[3:6]
except:
        return ''

其實用正則能夠輕鬆解決：

import re
split=re.compile('\d座|客車')
try:
    result=split.search(s).group()
except:
    result=''

使用正則的好處：
1,不須要先知道要匹配字符的位置如[3:6],若是要匹配不少條結果用切片法確定很亂。
2,更加靈活，若是出現'￥%……4排5座SUV'也能夠成功匹配
3,預先編譯，更高效

6，有哪些不用正則也能夠很好解決的

7，回顧和思考

8，資源

12個優秀資源助你迅速掌握正則表達式

fnrtv ↩

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。