中文詞頻統計

1.下載一中文長篇小說,並轉換成UTF-8編碼。 2.使用jieba庫,進行中文詞頻統計,輸出TOP20的詞及出現次數。 3.排除一些無意義詞、合併同一詞。 4.對詞頻統計結果做簡單的解讀。 代碼如下: import jieba txt = open('aaa.txt','r',encoding = 'utf-8').read() words = list(jieba.cut(txt)) ex
相關文章
相關標籤/搜索