nltk RegexpTokenizer類:python天然語言處理

前面的一些分詞工具都是寫好的的規則 正則表達式

若是咱們想按照本身的規則進行分詞 可使用正則分詞器 工具

1.RegexpTokenizer類 spa

from nltk.tokenize import RegexpTokenizer .net

text = " I won't just survive, Oh, you will see me thrive. Can't write my story,I'm beyond the archetype." regexp

# 實例化RegexpTokenizer 會按照正則表達式進行re.findall()
regexp_tokenizer = RegexpTokenizer(pattern="\w+")
# 實例化RegexpTokenizer 指定gaps=True會按照正則表達式進行re.split()
regexp_tokenizer1 = RegexpTokenizer("[\s,'\.]", gaps=True)
print(regexp_tokenizer.tokenize(text))
# ['I', 'won', 't', 'just', 'survive', 'Oh', 'you', 'will', 'see', 'me', 'thrive', 'Can', 't', 'write', 'my', 'story', 'I', 'm', 'beyond', 'the', 'archetype']
print(regexp_tokenizer1.tokenize(text))
# ['I', 'won', 't', 'just', 'survive', 'Oh', 'you', 'will', 'see', 'me', 'thrive', 'Can', 't', 'write', 'my', 'story', 'I', 'm', 'beyond', 'the', 'archetype']

---------------------
做者:qq_41864652
來源:CSDN
原文:https://blog.csdn.net/qq_41864652/article/details/81505768
版權聲明:本文爲博主原創文章,轉載請附上博文連接!blog

相關文章
相關標籤/搜索