TF-IDF

 

詞袋模型搜索引擎

  如上圖所示,計算機不能直接識別文字信息,它會把上面的兩句話轉換成詞頻向量來表示,就是每組詞在這個句子中出現的次數,可是它並不考慮詞的前後順序,這種模型就叫詞袋模型。 spa

  上圖中表示每一個詞的出現的數量做爲向量的,就叫人詞頻向量3d

  

jieba分詞三種模式:blog

  一、精確模式:試圖將句子精確地分開,適合文本分析索引

  二、全模式:把句子中全部能夠成詞的詞語都分開,速度快,但不能解決歧義文檔

  三、搜索引擎模式:在精確模式的基礎上對長詞再次切分,適合搜索引擎分詞基礎

TF-IDF模型搜索

  TF(term frequency):表示詞頻,某個詞在文檔中出現的次數im

  DF(doucument frequency):某個詞在全部文檔中出現的文檔數img

  IDF(inverse doucument frequency):逆文檔頻率,它是DF的倒數,IDF越大表示該詞越少見,也即越重要

  TF-IDF: TF*IDF綜合了TF和IDF的因素來平衡詞的重要性

相關文章
相關標籤/搜索