中文詞頻統計

時間 2021-01-13

原文原文鏈接

1.下載一中文長篇小說，並轉換成UTF-8編碼。 2.使用jieba庫，進行中文詞頻統計，輸出TOP20的詞及出現次數。 3.排除一些無意義詞、合併同一詞。 4.對詞頻統計結果做簡單的解讀。代碼如下： import jieba txt = open('aaa.txt','r',encoding = 'utf-8').read() words = list(jieba.cut(txt)) ex

>>阅读原文<<