其實詞雲通常分爲兩種,一個是權重比,一個是頻次分析前端
主要仍是體如今天然語言方向,難度較大,但這裏咱們用jieba詞庫python
主要思路, 後端算數據+前端生成圖(D3-cloud-好像是哈,不肯定了)正則表達式
#!/usr/bin/env python # -*- coding: utf-8 -*- # 導入擴展庫 import re # 正則表達式庫 import collections # 詞頻統計庫 import jieba # 結巴分詞 import jieba.analyse as anl s = \ """ 爲貫徹落實黨的十八大關於全面深化改革的戰略部署,十八屆中央委員會第三次全體會議研究了全面深化改革的若干重大問題,做出以下決定。 1、全面深化改革的重大意義和指導思想 (1)改革開放是黨在新的時代條件下帶領全國各族人民進行的新的偉大革命,是當代中國最鮮明的特點。黨的十一屆三中全會召開三十五年來,咱們黨以巨大的政治勇氣,銳意推動經濟體制、政治體制、文化體制、社會體制、生態文明體制和黨的建設制度改革,不斷擴大開放,決心之大、變革之深、影響之廣史無前例,成就舉世矚目。 改革開放最主要的成果是開創和發展了中國特點社會主義,爲社會主義現代化建設提供了強大動力和有力保障。事實證實,改革開放是決定當代中國命運的關鍵抉擇,是黨和人民事業大踏步遇上時代的重要法寶。 實踐發展永無止境,解放思想永無止境,改革開放永無止境。面對新形勢新任務,全面建成小康社會,進而建成富強民主文明和諧的社會主義現代化國家、實現中華民族偉大復興的中國夢,必須在新的歷史起點上全面深化改革,不斷加強中國特點社會主義道路自信、理論自信、制度自信。 """ text = s keyword = anl.extract_tags(text, 200, withWeight=True, allowPOS=('v', 'vd', 'n', 'nr', 'ns', 'nt', 'nz')) print(keyword) print(len(keyword)) keyword = anl.textrank(text, 200, withWeight=True, allowPOS=('v', 'vd', 'n', 'nr', 'ns', 'nt', 'nz')) print(keyword) print(len(keyword)) string_data = s # 文本預處理 pattern = re.compile('\t|\n|\.|-|:|;|\)|\(|\?|(|)|\|"|\u3000') # 定義正則表達式匹配模式 string_data = re.sub(pattern, '', string_data) # 將符合模式的字符去除 # 文本分詞 seg_list_exact = jieba.cut(string_data, cut_all=False) # 精確模式分詞 object_list = [] remove_words = [u'的', u',', u'和', u'是', u'隨着', u'對於', u'對', u'等', u'能', u'都', u'。', u' ', u'、', u'中', u'在', u'了', u'一般', u'若是', u'咱們', u'須要'] # 自定義去除詞庫 # remove_words = [line.strip() for line in open("CS.txt",encoding="utf-8").readlines()] for word in seg_list_exact: # 循環讀出每一個分詞 if word not in remove_words: # 若是不在去除詞庫中 object_list.append(word) # 分詞追加到列表 # 詞頻統計 word_counts = collections.Counter(object_list) # 對分詞作詞頻統計 word_counts_top10 = word_counts.most_common(200) # 獲取前10最高頻的詞 print(word_counts_top10) # 輸出檢查 print(len(word_counts_top10))