中文詞頻統計

時間 2021-01-13

原文原文鏈接

1.下載一中文長篇小說，並轉換成UTF-8編碼。 2.使用jieba庫，進行中文詞頻統計，輸出TOP20的詞及出現次數。 3.排除一些無意義詞、合併同一詞。 4.對詞頻統計結果做簡單的解讀 import jieba txt = open('阿Q正傳.txt','r',encoding='utf-8').read() words=list(jieba.cut(txt)) print('列表如下：'

>>阅读原文<<