使用jieba分析小說人物出現次數

分析:spa

1. 讀取小說,以讀的形式打開code

with open('文件名.txt','r',encoding='utf8') as f: str = f.read()

2. 切割小說blog

ret = jieba.lcut(str)

3. 統計全部詞語出現次數 --> 準備一個字典排序

dic = {} for word in ret: if len(word) == 1: # 去掉名字爲一個字的 continue dic[word] = dic.get(word, 0) + 1

  準備一個多餘稱呼的列表get

excluedes = ["諸葛亮","臥龍","玄德","關公","丞相",...]

  若是文中某我的物有多個稱呼時,應將多個稱呼疊加到某一個稱呼上,再將多餘的刪除it

dic['關羽'] = dic['關羽'] + dic['美髯公'] + dic['關公'] + dic['關雲長'] + dic['雲長'] for i in excluedes: del dic[i]

4. 對字典進行排序,升序class

lis = list(dic.items()) lis.sort(key=lambda x:x[1],reverse=True)

5. 取出出現次數前十的數據lambda

for i in range(10): print(lis[i][0])
相關文章
相關標籤/搜索