【讀書筆記】Python Natural Language Processing by Jalaj Thanaki

Corpus analysis nltk包括四種形式的corpora Isolate corpus:文本和自然語言的集合,例如gutenberg、webtext等。 Categorized corpus:這裏的文本被打包分類成不同的類別,例如brown包含了news、hobbies、humor等類別。 Overlapping corpus:這裏的類別與類別之間會有重疊區域,例如retuers,比如
相關文章
相關標籤/搜索