python 正則表達式之零寬斷言

時間 2019-11-29

原文原文鏈接

零寬斷言：用於查找特定內容以前或以後的內容，但並不包括特定內容自己。
對於零寬斷言來講，我認爲最重要的一個概念是位置，零寬斷言用於指定一個位置，這個位置應該知足必定的條件(它附近知足什麼表達式)，而且這個位置不是字符（所以匹配返回無結果），僅僅是一個位置，所以它們也被稱爲零寬斷言
零寬斷言重點的這一個位置，是經過一個條件：這個位置附近（前或者後）存在或者不存在一個A（A能夠是一個表達式）來決定的正則表達式

請忘記它的各類名字，咱們只記憶公式自己：spa

(?=exp) ：此位置後面匹配表達式exp
(?<=exp)：此位置前面匹配表達式exp
(?!exp)：此位置後面不匹配表達式exp
(?<!exp)：此位置前面不匹配表達式exp
注：有些地方只支持部分零寬斷言，好比在線正則表達式import

下面是示例：
>>> import re
>>> str = '<div>hello world</div>'
>>> re.search('(?=he).*',str)
<_sre.SRE_Match object; span=(5, 22), match='hello world</div>'>
>>> re.search('(?=he).*(?<=ld)',str)
<_sre.SRE_Match object; span=(5, 16), match='hello world'>
>>> re.search('(?<=<div>).*(?=</div>)',str)
<_sre.SRE_Match object; span=(5, 16), match='hello world'>object

>>> str = '3446456sdff456a'
>>> re.search('[a-z]{3}(?!/d)',str)
<_sre.SRE_Match object; span=(7, 10), match='sdf'>
>>> re.search('[a-z]{3}(?![a-z])',str)
<_sre.SRE_Match object; span=(8, 11), match='dff'>im

>>> re.search('(?<![0-9])[0-9]{3}',str)
<_sre.SRE_Match object; span=(0, 3), match='344'>　　 #匹配到了第一個位置
>>> re.search('(?<![0-9])[0-9]{3}(?![0-9])',str)
<_sre.SRE_Match object; span=(11, 14), match='456'>di