TF-IDF字體
TF-IDF統計的是詞庫全部詞的出現頻率與在文件級出現頻率的倒數的對數乘積。網站
TF:即詞語出現的頻率。spa
IDF:記每一個詞出現的文件數爲 file_i,總文件數爲file_num,IDF[I] = log(file_num/(1+file_i))
.net
TF-IDF = TF * IDFcode
1 import jieba.analyse 2 # 在線製做詞雲 https://wordart.com/create 3 path = './test_text.txt' 4 file_in = open(path, 'r',encoding='utf-8') 5 content = file_in.read() 6 7 # 中止詞在網上找 https://blog.csdn.net/dorisi_h_n_q/article/details/82114913 8 try: 9 jieba.analyse.set_stop_words('./stop_words.txt') 10 tags = jieba.analyse.extract_tags(content, topK=100, withWeight=True) 11 for v, n in tags: 12 #權重是小數,爲了湊整,乘了一萬 13 # 中間使用 製表符\t 是爲了在線錄入數據時候 選擇csv格式自動添加詞 14 out_words=v + '\t' + str(int(n * 10000)) 15 print(out_words) 16 with open('./out_詞頻.txt','a+',encoding='utf-8')as f: 17 f.write(out_words+'\n') 18 finally: 19 file_in.close()
打開詞雲製做網站,import導入數據,粘貼好數據後,選擇shapes、Font等。blog
操做步驟:utf-8
1.導入數據get
2.選擇SHAPES中的某個圖像it
3.設置字體。字體能夠加載本地字體,也能夠導「搜字網」下載。class
可視化以後,效果圖以下所示:
jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
sentence:待分析的文本; topK: 返回前topK個值; withWeight: 是否返回權值,默認不返回; allowPOS: 篩選過濾掉指定詞性的詞。可選:'ns', 'n', 'vn', 'v','nr'。