今天寫代碼,在寫到鄭澤的時候遇到了一個坑,這個坑是re模塊下的findall()函數。python
下面我將結合代碼,記錄一下函數
import re string="abcdefg acbdgef abcdgfe cadbgfe" #帶括號與不帶括號的區別 #不帶括號 regex=re.compile("((\w+)\s+\w+)") print(regex.findall(string)) #輸出:[('abcdefg acbdgef', 'abcdefg'), ('abcdgfe cadbgfe', 'abcdgfe')] regex1=re.compile("(\w+)\s+\w+") print(regex1.findall(string)) #輸出:['abcdefg', 'abcdgfe'] regex2=re.compile("\w+\s+\w+") print(regex2.findall(string)) #輸出:['abcdefg acbdgef', 'abcdgfe cadbgfe']
第一個 regex 中是帶有2個括號的,咱們能夠看到其輸出是一個list 中包含2個 tuple spa
第二個 regex 中帶有1個括號,其輸出的內容就是括號匹配到的內容,而不是整個表達式所匹配到的結果。code
第三個 regex 中不帶有括號,其輸出的內容就是整個表達式所匹配到的內容。blog
結論:findall()返回的是括號所匹配到的結果(如regex1),多個括號就會返回多個括號分別匹配到的結果(如regex),若是沒有括號就返回就返回整條語句所匹配到的結果(如regex2)。因此在提取數據的時候就須要注意這個坑。string
其實是由其並非python特有的,這是 正則 所特有的 , 任何一門高級語言使用正則都知足這個特色:有括號時只能匹配到括號中的內容,沒有括號【至關於在最外層增長了一個括號】。在正則裏面 「()」 表明的是分組的意思,一個括號表明一個分組,你只能匹配到"()"中的內容class