Python自然語言處理之分詞原理

寫在前面 入坑自然語言處理,最基本的就是要做文本挖掘,而首先要做的就是文本的預處理。自然語言處理的主要流程可以表示爲:  文本->分句->分詞->詞性標註->短語分析->句法分析->語義分析->語篇分析->理解 分句這部分一般有標點符號分割,便於處理。於是首先要做的就是分詞。英文單詞天然有空格隔開容易按照空格分詞,但是也有時候需要把多個單詞做爲一個分詞,比如一些名詞如「New York」,需要做爲
相關文章
相關標籤/搜索