python實戰，中文天然語言處理，應用jieba庫來統計文本詞頻

時間 2019-11-19

標籤 python 實戰中文天然語言處理應用 jieba 統計文本詞頻欄目 Python 简体版

原文原文鏈接

模塊介紹

安裝：pip install jieba 便可python

jieba庫，主要用於中文文本內容的分詞，它有3種分詞方法：學習

1. 精確模式, 試圖將句子最精確地切開，適合文本分析：搜索引擎

2. 全模式，把句子中全部的能夠成詞的詞語都掃描出來，速度很是快，可是不能解決歧義；spa

3. 搜索引擎模式，在精確模式的基礎上，對長詞再詞切分，提升召回率，適合用於搜索引擎分詞。3d

咱們用個小例子演示下orm

這上面的小例子中咱們看到了一個問題，若是咱們只是簡簡單單的將全部詞切分出來，而後去統計它們出現的次數，那麼你會發現，其中的「是」，「的」等等詞語以及各類標點符號是出現頻率最高的，那麼這裏有2種方式，1是直接去掉長度爲1的全部詞語，好比上面所說的「是」，「的」或者標點符號等等，還有一種呢，是用到了TF-IDF技術blog

TF-IDF (term frequency-inverse document frequency)是一種用於信息檢索(information retrieval)與文本挖掘(text mining)的經常使用加權技術，比較容易理解的一個應用場景是當咱們手頭有一些文章時或者微博評論，咱們但願計算機可以自動地進行關鍵詞提取。而TF－IDF就是能夠幫咱們完成這項任務的一種統計方法。它能偶用於評估一個詞語對於一個文集或一個語料庫中的其中一份文檔的重要程度。這個方法又稱爲"詞頻－逆文本頻率"。排序

很差理解的話，咱們同樣來寫一個小例子：索引

withWeight=True 參數爲是否返回權重值，默認是關閉的，咱們直接打印出全部詞和它對於的權重，就能夠用於計算了！ip