以前已經瞭解了使用nltk庫,將文本做爲參數傳入相應函數進行切分的方法,下面看看使用正則表達式如何來進行文本切分。正則表達式
1. 使用正則表達式切分函數
1.1 經過RegexpTokenizer 進行切分。先導入 RegexpTokenizer 模塊,而後構建一個與文本中的標識符相匹配的正則表達式。將此正則表達式做爲參數傳入RegexpTokenizer ,同時實例化一個對象,使用此對象對文本進行切分。spa
from nltk.tokenize import RegexpTokenizer # RegexpTokenizer() 參數是將要匹配的字符串的正則表達式,返回值是全部匹配到的字符串組成的列表 tokenizer = RegexpTokenizer("\w+") print(tokenizer.tokenize("Don't hesitate to ask questions!"))
運行結果:code
['Don', 't', 'hesitate', 'to', 'ask', 'questions']
1.2 使用 regexp_tokenize 切分。regexp
from nltk.tokenize import regexp_tokenize sentence = "My name is QWE, and I'm 22 years old." print(regexp_tokenize(sentence, pattern= '\w+|\$[\d\.]+|\S+'))
運行結果:對象
['My', 'name', 'is', 'QWE', ',', 'and', 'I', "'m", '22', 'years', 'old', '.']
1.3 以空格爲分界點進行切分blog
from nltk.tokenize import RegexpTokenizer tok = RegexpTokenizer('\s+', gaps= True) print(tok.tokenize("Don't hesitate to ask questions"))
1.4 篩選以大寫字母開頭的單詞token
from nltk.tokenize import RegexpTokenizer sentence = "My name is QWE, and I'm 22 years old.I'm from China" capt = RegexpTokenizer('[A-Z]\w+') print(capt.tokenize(sentence))
結果:字符串
['My', 'QWE', 'China']
(看起來都像是直接用正則匹配的。。)it
1.5 使用WhitespaceTokenizer能夠經過返回元組形式的序列來進行切分,該序列爲標識符在語句中的位置和偏移量。
from nltk.tokenize import WhitespaceTokenizer sentence = " She secured 90.56 % in class X \n. She is a meritorious student\n" print(list(WhitespaceTokenizer().span_tokenize(sentence)))
結果:
[(1, 4), (5, 12), (13, 18), (19, 20), (21, 23), (24, 29), (30, 31), (33, 34), (35, 38), (39, 41), (42, 43), (44, 55), (56, 63)]