自然語言處理學習 nltk----分詞

  1. nltk.word_tokenize ( text ) : 直接的分詞,比如:「 isn't 」 被分割爲 " is " 和 「 n't 」  2. WordPunctTokenizer ( ) : 單詞標點分割,比如:「 isn't 」被分割爲" isn ", " ' " 和 " t "      注意WordPunctTokenizer ( )的用法。  3. TreebankWor
相關文章
相關標籤/搜索