spaCy處理文本的過程是模塊化的,當調用nlp處理文本時,spaCy首先將文本標記化以生成Doc對象,而後,依次在幾個不一樣的組件中處理Doc,這也稱爲處理管道。語言模型默認的處理管道依次是:tagger、parser、ner等,每一個管道組件返回已處理的Doc,而後將其傳遞給下一個組件。git
spaCy使用的語言模型是預先訓練的統計模型,可以預測語言特徵,對於英語,共有en_core_web_sm、en_core_web_md和en_core_web_lg三種語言模型,使用spacy.load()函數來加載語言模型github
spacy.load(name,disable)
其中,name參數是語言模型的名詞,disable參數是禁用的處理管道列表,例如,建立en_core_web_sm語言模型,並禁用ner:web
nlp = spacy.load("en_core_web_sm", disable=['ner'])
語言模型中不只預先定義了Language管道,還定義了處理文本數據的處理管道(pipeline),其中分詞器是一個特殊的管道,它是由Language管道肯定的,不屬於pipeline。api
{ "lang": "en", "name": "core_web_sm", "description": "Example model for spaCy", "pipeline": ["tagger", "parser", "ner"] }
在加載語言模型nlp以後,能夠查看該語言模型預先定義的處理管道,也就是說,處理管道依賴於統計模型。app
1,查看nlp對象的管道模塊化
>>> nlp.pipe_names ['tagger', 'parser', 'ner']
2,移除nlp的管道函數
nlp.remove_pipe(name)
3,向nlp的處理管道中增長管道ui
nlp.add_pipe(component, name=None, before=None, after=None, first=None, last=None)
Language管道是一個特殊的管道,當調用spacy.load()加載語言模型時,spaCy自動建立Lanuage管道,用於存儲共享的詞彙表、分詞規則(Tokenization Rule)和文本註釋。this
分詞器管道是跟Language管道息息相關的一個管道,當建立Language管道以後,spaCy根據Language管道提供的詞彙表來建立分詞器。分詞器用於把文本分爲單詞,標點符號,空格等標記,除了使用默認的分詞器以外,spaCy容許用戶根據須要對分詞器進行調整:編碼
from spacy.tokenizer import Tokenizer tokenizer = Tokenizer(vocab=nlp.vocab,rules,prefix_search, suffix_search, infix_search, token_match)
參數註釋:
在文本處理的過程當中,spaCy首先對文本分詞,原始文本在空格處分割,相似於text.split(' '),而後分詞器(Tokenizer)從左向右依次處理token,在處理token時,spaCy作了兩個check:
一個可選的布爾函數token_match,它匹配的字符串不會被拆分,覆蓋之前的規則,對URL或數字之類的東西頗有用。
每一種語言都是不一樣的,一般充滿異常和特殊狀況,尤爲是最多見的單詞。 其中一些例外是跨語言共享的,而其餘例外則徹底具體,一般很是具體,須要進行硬編碼。 spaCy.lang模塊包含全部特定於語言的數據,以簡單的Python文件組織,這使得數據易於更新和擴展。
每個單獨的組件能夠在語言模塊種導入遍歷,並添加到語言的Defaults對象種,某些組件(如標點符號規則)一般不須要自定義,能夠從全局規則中導入。 其餘組件,好比tokenizer和norm例外,則很是具體,會對spaCy在特定語言上的表現和訓練語言模型產生重大影響。
例如,導入English模塊,查看該模塊的幫助:
from spacy.lang.en import English help(English)
經過這些模塊來擴展語言,處理特殊的語法,一般在分詞器(Tokenizer)中添加特殊規則和Token_Match函數來實現。
1,向分詞器中添加特殊的規則
import spacy from spacy.symbols import ORTH, LEMMA, POS, TAG nlp = spacy.load("en_core_web_sm") # add special case rule special_case = [{ORTH: u"gim", LEMMA: u"give", POS: u"VERB"}, {ORTH: u"me"}] nlp.tokenizer.add_special_case(u"gimme", special_case)
2,設置特殊的規則來匹配token
建立一個自定義的分詞器,使分詞把https做爲一個token:
import re import spacy from spacy.lang.en import English def my_en_tokenizer(nlp): prefix_re = spacy.util.compile_prefix_regex(English.Defaults.prefixes) suffix_re = spacy.util.compile_suffix_regex(English.Defaults.suffixes) infix_re = spacy.util.compile_infix_regex(English.Defaults.infixes) pattern_re = re.compile(r'^https?://') return spacy.tokenizer.Tokenizer(nlp.vocab, English.Defaults.tokenizer_exceptions, prefix_re.search, suffix_re.search, infix_re.finditer, token_match=pattern_re.match)
在處理文本時調用該分詞器,把匹配到正則的文本做爲一個token來處理:
nlp = spacy.load("en_core_web_sm") nlp.tokenizer = my_en_tokenizer(nlp) doc = nlp(u"Spacy is breaking when combining custom tokenizer's token_match, access https://github.com/explosion/spaCy to get details") print([t.text for t in doc])
3,自定義分詞器
預先定義的分詞器是按照空格來分詞的,用於能夠自定義分詞器
### customer tokenizer class myTokenizer(object): def __init__(self, vocab): self.vocab = vocab def __call__(self, text): words=[] re_search=my_token_match(text) if re_search: for start,end in re_search.regs: if start >=0 and end>=0: words.append(text[start:end]) text=my_token_replace(text) split_words=my_token_split(text) print(split_words) words.extend([w for w in split_words if w!='']) # All tokens 'own' a subsequent space character in this tokenizer spaces = [True] * len(words) return Doc(self.vocab, words=words, spaces=spaces) ### parse the synonyms RE_SYNONYMS=parse_synonyms() def my_token_match(text): global RE_SYNONYMS return re.compile(RE_SYNONYMS).search(text) def my_token_replace(text): global RE_SYNONYMS return re.compile(RE_SYNONYMS).sub('',text) def my_token_split(text): #return re.compile('\s+|\W+|_+').split(text) return re.compile('\s+|\\+|_+').split(text)
引用自定義的分詞器
nlp=spacy.load("en_core_web_sm") nlp.tokenizer = myTokenizer(nlp.vocab)
參考文檔: