Python自然語言處理 2 獲得文本語料和詞彙資源

時間 2021-01-13

原文原文鏈接

#古騰堡語料庫----文學作品 Project Gutenberg import nltk nltk.corpus.gutenberg.fileids() emma = nltk.corpus.gutenberg.words('austen-emma.txt') #<簡愛> len(emma) 192427 文本的3個統計量:平均詞長,平均句子長度和每個詞出現的平均次數 sents(

>>阅读原文<<